蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOCX文档下载
 

搜索引擎工作原理.docx

  • 资源ID:582837       资源大小:106.47KB        全文页数:5页
  • 资源格式: DOCX        下载权限:游客/注册会员    下载费用:8积分 【人民币8元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要8积分 【人民币8元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

搜索引擎工作原理.docx

详解搜索引擎的工作原理201202211337来源小强的博客编辑SUNSUN【纠错】6人评论AA怎么开淘宝店网站优化方法创业如何获得投资怎么做微商最新LOL活动一名合格的SEO工程师,一定会了解搜索引擎的工作原理,对于百度和谷歌的原理几乎差不多,只是其中有些细节不同,比如分词技术等,因为国内搜索一般都是百度,所以我们以后的课程都会针对于百度,当然,基础类的只是同样适用于谷歌搜索引擎的工作原理其实很简单,首先搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统咯,当然这只是基本的4个部分下边我们来讲搜索引擎的工作流程什么是搜索引擎蜘蛛,什么是爬虫程序搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上比较好理解。搜索引擎蜘蛛是怎样抓取网页的呢发现某一个链接→下载这一个网页→加入到临时库→提取网页中的链接→在下载网页→循环首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。搜索引擎蜘蛛几乎是24小时不休息的(在此为它感到悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页怎么办呢这就需要到了第二个系统,也就是搜索引擎的分析系统。搜索引擎的蜘蛛抓取网页有规律吗这个问题问的好,那么搜索引擎蜘蛛抓取网页到底有规律吗答案是有如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢所以说,蜘蛛抓取网页也是有规律的蜘蛛抓取网页策略1深度优先什么是深度优先简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。大家看下图在上图中就是深度优先的示意图,我们假如网页A在搜索引擎中的权威度是最高的,假如D网页的权威是最低的,如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高,这就是深度优先蜘蛛抓取网页策略2宽度优先宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。上图呢,就是宽度优先的示意图这其实也就是大家平时所说的扁平化结构,大家或许在某个神秘的角落看到一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,这就是来对付搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。蜘蛛抓取网页策略3权重优先如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先那么搜索引擎蜘蛛怎样知道这条连接的权重呢这里有2个因素1、层次的多与少;2、这个连接的外链多少与质量;那么如果层级太多的链接是不是就不会被抓取呢这也不是绝对的,这里边要考虑许多因素,我们在后边的进阶中会降到逻辑策略,到时候我在详细的给大家说蜘蛛抓取网页策略4重访抓取我想这个比较好理解,就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取重访抓取也分为两个,如下1、全部重访所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次2、单个重访单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。以上呢,就是搜索引擎蜘蛛抓取网页的一些策略那么我们上边说过,在搜索引擎蜘蛛把网页抓取回来,就开始了第二个部分,也就是数据分析的这个部分。数据分析系统数据分析系统,是处理搜索引擎蜘蛛抓取回来的网页,那么数据分析这一块又分为了一下几个1、网页结构化简单的说,就是把那些HTML代码全部删掉,提取出内容。2、消噪消噪是什么意思呢在网页结构化中,已经删掉了HTML代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权3、查重查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。4、分词分词是神马东西呢就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库同时也会计算这一个词在这个页面出现了多少次。5、链接分析这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。数据索引系统在进行了上边的步骤之后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。那么这个索引库又大致分为以下两个系统正排索引系统什么是正排索引简单的说,就是搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包括这个URL的外链,关键词密度等等数据。搜索引擎简单的工作原理概况搜索引擎蜘蛛发现连接→根据蜘蛛的抓取策略抓取网页→然后交到分析系统的手中→分析网页→建立索引库OK,这节课可算是完了。太不容易啦我,今天只是对搜索引擎工作的一个简单的讲说,因为搜索引擎的非常复杂的一个系统,不可能几十分钟就可以全方位的讲道,我们在进阶或者高级教程中会慢慢的讲到

注意事项

本文(搜索引擎工作原理.docx)为本站会员(战狼3)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开