蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOC文档下载
 

现代技术-搜索引擎.doc

  • 资源ID:582840       资源大小:44.00KB        全文页数:7页
  • 资源格式: DOC        下载权限:游客/注册会员    下载费用:8积分 【人民币8元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要8积分 【人民币8元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

现代技术-搜索引擎.doc

现代技术搜索引擎原理剖析及其技术发展(余艳)摘要搜索引擎是一个集多种技术于一体的综合性系统。文章对搜索引擎的工作原理进行剖析,对搜索引擎的各个组成部分所涉及的主流技术进行了详尽的阐述。元搜索引擎作为一种新型的搜索引擎,文中对此进行了分析和比较。在了解搜索的原理,搜索引擎的技术所依赖的理论模型,以及在此领域已有的研究成果的基础上,展望了未来搜索引擎的发展趋势。关键词搜索引擎ROBOT搜索排序向量空间模型元搜索引擎分类号G3544随着INTERNET的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。搜索引擎作为INTERNET上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。搜索引擎可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。搜索引擎是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。1搜索引擎的工作原理搜索引擎SEARCHENGINE是利用信息挖掘系统在网际空间寻找和挖掘相关或有用信息,在此基础上建立检索数据库,并通过提供简单友好的查询界面帮助用户进行网络信息检索的信息服务系统或工具。搜索引擎实际是INTERNET上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻WEB服务器的信息,将信息进行分类、建立索引,然后把索引的内容存放到数据库中,便于以查询和利用的方式提交给用户。搜索引擎主要由四部分组成,即信息采集器ROBOT或SPIDER或CRAWLER、分析索引器INDR、检索器SEARCHER和查询接口QUERYINTERFACE。当前主流的搜索引擎的组成和结构中,一般还包括挖掘器,进行WEB挖掘和用户信息挖掘。ROBOT也就是SPIDER或CRAWLER,从事先制定好的URL列表出发自动访问WWW网页,分析提取网页中超文本的URL,将其加入列表,并根据URL列表进一步访问其他网页。分析索引器是一个数据库,ROBOT采集到的网页信息全部存于其中。数据库的规模直接影响了系统查询的查全率。有些记录了网页的全部内容,对整个HTML文件的所有单词都建立索引,有的只记录网页的地址、标题、关键词、摘要等信息,还有的能处理HTML文件中的META的标记或其他不可见的特殊标记。检索器根据用户查询在索引库中快速检索出文档,并按照一定的算法进行结果页的排序;查询接口提供用户访问的查询界面和服务端的查询程序,当用户查询一个关键词时,搜索引擎将搜索数据库,找出所有与关键词相符合的网页,按照一定算法生成结果网页返回用户浏览器。以下分别讨论搜索引擎的各个组成部分,其连接机制如图1所示参考天网搜索引擎设计模型。11信息采集器信息采集器ROBOT的主要功能是从WWW上获取网页和超链结构信息。WWW结构是一个以网页为节点,超链为边的有向图,因此,ROBOT的运行可以抽象为一个有向图的遍历过程。当ROBOT运行时,只要提供少量用户配置的起始网页,ROBOT能根据一定的算法,获取新的网页和超链,并沿着这些超链在网络上漫游,收集信息资源。ROBOT对网站的访问是周期性的,一般为每月一次或数次,访问次数视网页的更新频率而定。ROBOT的性能很大程度上影响了搜索引擎站点的规模。12分析索引器分析索引器的主要功能是分析收集的信息,建立索引库以供查询。分析索引器的工作可拆分为两部分,即分析器和索引器。首先,分析器根据网上数据的特点,按照特定的算法,对已经搜集获得的网页和超链信息进行分析,从中提取和用户检索相关的网页描述信息;然后,索引器对已分析好的网页的抽象数据中抽出索引项,建立索引。索引项又分为客观索引项和内容索引项客观索引项与文档的语义内容无关,如作者名、URL、更新时间、编码长度、链接频次度等;内容索引项反映文档内容,如关键词及其等级值、短语、单字等。内容索引项包括单字索引项和短语索引项。索引器建立内容索引项时,对于英文来讲是比较容易提取的,因为英文单词之间有空格来分隔,而对于像中文等连续书写的语言,就必须进行词语的切分,这就涉及到中文搜索引擎中的切词技术。分析器分析所得的网页描述信息,都是页面到页面描述数据的正排表。索引器的核心工作就是重新整理这些网页描述信息,对必要的数据项建立倒排表包括关键词到网页的倒排表、站点到网页的倒排表等,为用户的检索做准备。分析索引器是搜索引擎的核心技术之一,它的策略很大程度上影响了搜索引擎的效率与准确性。目前,比较常用的方法是对网页的标题TITLE和内容COMMENT进行索引。13检索器检索器的功能是接收、解释用户的搜索请求;根据用户的查询在索引库中快速检出文档;计算网页与搜索请求的关联度;对将要输出的结果进行排序;实现用户相关性反馈机制。检索器常用的信息检索模型有布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。大多数检索系统是把以上各种模型混合在一起,以达到最佳检索效果。14查询接口查询接口是为用户提供使用搜索引擎的接口。它的主要功能是输入用户查询、显示查询结果、提供用户相关性反馈机制,以方便用户使用搜索引擎,从而高效、多样地获取有用信息。查询接口技术主要有搜索请求技术、搜索结果表现技术、用户行为分析技术。无论技术如何发展,查询接口的设计都是为了充分适应人的思维方式。15挖掘器挖掘器提取用户相关信息,利用这些信息来提高检索服务的质量。挖掘器的性能依赖于用户信息库的建立。用户信息库是用来记录用户的相关信息,如用户的IP地址,用户的所有检索串以及用户对这些检索的响应。用户也可以向搜索引擎登记相应的信息,如所在的国家、地区、爱好、职业等,这些信息也将被记录在用户信息库中,以备以后提高用户检索的质量。挖掘器根据该用户以前检索行为的学习统计以及登记的信息,为用户提供他最期望的检索结果。挖掘器的使用在个性化服务中起着关键性的作用。搜索引擎的工作原理简言之,即信息采集软件从一个已知的文档集中读取信息,并检查这些文档的链接指针,指出新的信息空间,然后取出这些新空间的文档,将它们加入到索引数据库,检索器通过索引数据库为用户的查询请求提供服务。现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足,索引数据库往往很大,从而降低了查准率。2搜索引擎主要技术分析21WEB文档收集ROBOT是搜索引擎中的一个重要模块,也是搜索引擎工作的一个入口。ROBOT是一种能够利用WEB文档内的超级链接递归访问新文档的软件程序。具体说就是,在自动加载方式下,从一事先制定好的URL列表出发,根据HTTP协议自动访问WWW网页,当网页被提取后,分析提取网页中超文本的URL,将其加入URL列表,同时以此超级链接作为新的起点,进一步访问其他网页,不断循环下去。ROBOT的工作线程结构如图2所示。首先,URL解析器接受需要获取URL地址链表,将其解析为IP地址,然后ROBOT从URL解析器中获取IP地址,存入URL缓冲区中,再由ROBOT搜索访问网页,并将文本存入缓冲区,再传到页面存储器,对于新页面中所包含的URL则存入URL列表中。ROBOT在搜索过程中采用的策略有广度优先搜索

注意事项

本文(现代技术-搜索引擎.doc)为本站会员(战狼3)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开