蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOC文档下载
 

搜索引擎工作原理seo优化参考.doc

  • 资源ID:582787       资源大小:131.00KB        全文页数:4页
  • 资源格式: DOC        下载权限:游客/注册会员    下载费用:8积分 【人民币8元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要8积分 【人民币8元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

搜索引擎工作原理seo优化参考.doc

深圳市龙岗区平湖华南城环球物流中心19楼电话075585233755传真075585233756网址WWWZEEEDACOMP1深圳市指易达电子商务有限公司提供,公司网址HTTP//WWWZEEEDACOM/搜索引擎工作原理SEO参照目前搜索引擎很多,各个搜索引擎的算法有所差异,但搜索引擎的工作原理大致是一样的。下面简单介绍搜索引擎的工作原理,以及顺带讲做SEO时改注意的东西。一(蜘蛛、机器人)跟踪链接爬行和抓取。搜索引擎蜘蛛听过跟踪超级链接在互联网上爬行,访问链接指向的页面,获得页面的HTML代码,并将代码存入自己的数据库。搜索引擎蜘蛛的爬行方式有广度爬行和深度爬行。一般情况下,广度爬行和深度爬行是混合使用的。因为整个互联网的数据太大,蜘蛛没有足够的条件爬完所有的页面,实际上搜索引擎只爬行和收录了互联网的一小不部分。从提高蜘蛛爬行的角度讲,增加外部链接,也是是很有必要的。同时,也可以知道,网页不要放得太深,离首页越近,被蜘蛛爬行的机会越大。搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的HTML是一样的。蜘蛛在爬行和抓取网页时,会对网页内容进行检测,如果发现网站上的内容是大量转载和抄袭的,那可能就不会再继续跟踪爬行链接了。所以,多写原创性的内容,会促进搜索引擎蜘蛛的爬行。二.预处理“预处理”常被等同于“索引”,因为索引是预处理最重要的步骤。1去标签、代码。提取文本内容。搜索引擎蜘蛛抓取的页面数据量大,包含了大量的HTML格式标签、JAVASCRIPT等无法用于排名的数据。搜索引擎预处理,首先就是去除标签和程序代码,提取出用于排名处理的文本内容。2去杂,消除噪声。绝大部分页面上存在一部分对页面主题没有什么贡献的内容,比如导航条、广告上的文字。比如,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子的话,搜索用户的体验是很不好的。因为那写个帖子,并不是搜索者想要的。所以,这些词算作噪音,会给页面主题起到分散作用,故去之。3分词搜索引擎存储和处理页面及用户搜索都是以词为基础的。一个句子,所有的字和词都连在一起,搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“写作技巧”将被分词为“写作”和“技巧”两个词。中文分词方法基本上有两种基于词典匹配;基于统计。搜索引擎对页面的分词取决于本身的算法,跟页面本身如何无关。优化唯一能做的是提示搜索引擎,哪几个字被当做一个词处理,比如可以通过HTML标签把相关词标为黑体。深圳市龙岗区平湖华南城环球物流中心19楼电话075585233755传真075585233756网址WWWZEEEDACOMP24去语气助词等没有具体意义的的词页面中会出现很多对内容信息没有任何意义的词,比如感叹词“啊”“哈”“吖”、助词“的”“地”“得”、副词介词“而”“但是”“可是”。搜索引擎会在索引页面内容前去掉这些词,是索引的数据主题更突出,减少无谓的计算量。5去重复用户搜索时,如果在前两页看到的是来自不同网站的同一篇文章,那用户体验就太差了,虽然都是内容相关,所以在进行索引前,识别和删除重复内容,这一过程叫做“去重”。6正向索引搜索引擎提取关键词,按照分词程序划分好词,把页面转换为一个关键词组成的集合,同时记录每个关键词在页面上的出现频率、出现次数、格式(如黑体、H标签、锚文字等)、位置。这样,每个页面都记录为一串关键词的集合。每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合,这样的数据结构称为正向索引。7倒排索引正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。所以将正向索引库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,也就是每个关键词对应一系列文件。8链接关系计算搜索引擎在抓取页面后,会事先计算出页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。所以,长期坚持做好链接,是搜索引擎优化中的重要组成部分。9特殊文件处理处理HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、WORD、WPS、XLS、PPT、TXT等文件,搜索引擎能够检索出上述文件中的内容,所以可以在百度文库等平台分享自己的资料,全方位做好优化工作。三排名经过倒排索引之后,搜索引擎就准备好可以随时处理用户处理了。用户在搜索框中输入关键词,排名程序调用索引库数据,计算排名给用户。1搜索词处理。跟页面索引时一样,搜索词也会进行中文分词、去停止符,其他的还有指令处理、拼写错误纠正、整合搜索触发(比如搜索词与当前热门话题相关,则会在搜索结果中展示)。深圳市龙岗区平湖华南城环球物流中心19楼电话075585233755传真075585233756网址WWWZEEEDACOMP32文件匹配。文件匹配,就是找出含有关键词的文件,倒排索引使得文件匹配能够快速完成。3初始子集的选择。找到所有关键词的匹配文件后,搜索引擎不会对所有页面进行计算,只选出页面权重比较高的一个子集,再对这个子集进行相关性计算。4相关性计算。计算相关性是排名过程中最重要的一步。(1)关键词常用程度。经过分词后的关键词,对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小,约不常用的词对搜索词的意义贡献越大。排名算法会对不常用的词给予更多的权重。(2)词频及密度。词频和词的密度,是判断页面相关性的重要因素。控制好关键词密度,对SEO很重要。(3)关键词位置及形式。关键词出现在标题标签、黑体、H1等重要位置,说明页面与关键词越相关。所以,做SEO时,尽量在关键位置布置上要做得关键词。(4)关键词距离。切分后的关键词完整匹配地出现,说明与搜索词相关性高。比如搜索“写作技巧”,连续出现“写作技巧”四个字的最相关。如果“写作”和“方法”两个词没有连续匹配出现,但距离也不远,那搜索引擎认为相关性也大些。(5)链接分析及页面权重。除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析相关性,还包括链对接源页面本身的主题、锚文字周围的文字的分析。5排名过滤及调整。选出匹配文件子集、计算相关性后,大体排名就已经确定了,之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤是对一些有作弊嫌疑的页面施加惩罚。6排名显示。7索引缓存。搜索引擎会把最常见的搜索词存入缓存,用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大提高排名效率,缩短搜索时间。8查询及点击日志。搜索用户搜索的IP、关键词、时间,以及点击了哪些页面,搜索引擎都记录形成日志,这些日志中的数据,对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。所以,SEO不应该是针对搜索引擎做得技巧性工作,SEO最

注意事项

本文(搜索引擎工作原理seo优化参考.doc)为本站会员(战狼3)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开