小型搜索引擎的设计与实现.doc
大连民族学院2005届信息与计算科学专业本科毕业论文1摘要互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、WEB服务器三个方面进行详细的说明。这不仅对政府、企业、院校的发展极为不利,还在宏观上成为制约我国信息化建设健康良性发展的一大障碍。搜索引擎不是单纯的技术问题。在互联网时代,哪一个公司掌握了包括搜索引擎、信息传递在内的基础软件,它就能在竞争中傲视群雄;哪一个国家掌握和普及了这些技术,她就能在运用互联网的商业竞争占尽先机。关键词搜索引擎,网络机器人,优化策略,索引小型搜索引擎的设计与实现曹成2ABSTRACTINATIONONTHEINTERNETGROWSEXPLOSIVELYEVERYDAYSEARCHENGINEPROVIDESALLTHESURFERSONITWITHANENTRANCE,FROMWHICHTHEYCANREACHEVERYCORNEROFTHEWEBTHEREFORE,SEARCHENGINEBECOMESTHEMOSTPOPULARNETWORKSERVICESECONDTOEMAILWITHINATIONCONTINUINGTOEXPLODEINALLDIRECTIONS,HOWEVER,SOMESPECIFICKINDSOFUSERSARENOTSATISFIEDWITHONLYONEENTRANCETHISARTICLEFISTINTRODUCESTHESYSTEMSTRUCTUREOFSEARCHENGINEBASEDONTHEINTERNETINDETAIL,THENGIVESAMINUTEEXPLANATIONSPIDERSEARCH,ENGINEANDWEBSERVERTHISNOTONLYISEXTREMELYDISADVANTAGEOUSTOTHEDEVELOPMENTOFTHEGOVERNMENT,BUSINESSENTERPRISE,COLLEGE,BUTALSOBECOMETOMAKEONTHEMACROVIEWTHEROUGHLYOURCOUNTRYINATIONTURNSABIGOBSTACLEOFTHEPOSITIVEDEVELOPMENTINHEALTHINDEVELOPMENTSSEARCHINGFORTHEENGINEISNOTAPURETECHNIQUEPROBLEMLOOKDOWNUPONTHEGROUPOFHEROESININTERNETAGES,WHICHCOMPANIESCONTROLINCLUDEMANHUNTENGINE,INATIONDELIVERFOUNDATIONININSIDESOFTWARE,ITCANINTHECOMPETITIONWHICHNATIONSCONTROLEDWITHMADEWIDELYAVAILABLETHESETECHNIQUESES,SHECANOCCUPYATTHEBUSINESSTHATMAKEUSEOFTHEINTERNETCOMPETITIONEXHAUSTEDFIRSTTIMINGKEYWORDSSEARCHENGINE,ROBOT,OPTIMIZESTRATEGIES,INDEX目录摘要1大连民族学院2005届信息与计算科学专业本科毕业论文3ABSTRACT2第一章概述511引言512课题的基本内容6121搜索引擎三段式工作流程613开发环境7第二章搜索引擎的技术概要921搜索引擎简述922基于INTERNET的搜索引擎的构成的10221网络蜘蛛10222索引10223搜索引擎软件1023搜索引擎的主要指标及其分析11第三章网络机器人1231什么是网络机器人1232网络机器人的结构12321网络机器人(SPIDER)的组成1233HTML语言1334网络机器人的实现及代码分析14342结点的结构体1535关于机器人礼节及ROBOTTXT20351机器人礼节20352ROBOTTXT2136特点和存在问题22第四章搜索引擎优化策略2441站点角度2442用户角度26第五章系统实现及结论275.2搜索引擎的完成情况275.3存在的问题275.4心得体会27致谢27参考文献28小型搜索引擎的设计与实现曹成4大连民族学院2005届信息与计算科学专业本科毕业论文5第一章概述11引言随着计算机技术和互联网技术的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的“RICHDATA,POORINATION“。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。搜索引擎是仅次于门户的互联网的第二大核心技术,伴随着互联网的普及和网上信息的爆炸式的增长,它越来越引起人们的重视。现在在网上的搜索引擎也已经有很多,比较著名的有GOOGLE,ALTAVISTA,YAHOO,INFOSEEK,METACRAWLER,SAVVYSEARCH等等。国内也建立了很多的搜索引擎,比如搜狐、新浪、北极星、百度等等,当然由于它们建立的时间不长,在信息搜索的取全率和取准率上都有待于改进和提高。例如ALTAVISTA是一个速度很快的搜索引擎,由于它强大的硬件配置,使它能够做及其复杂的查询。它主要是基于关键字进行查询,它漫游的领域有WEB和USENET。支持布尔查询的“AND“,“OR“和“NOT“,同时还加上最相近定位“NEAR“,允许通配符和“向后“搜索(比如你可以查找链接到某一页的所有WEB站点)。你可以决定是否对搜索的短语加上权值,在文档的什么部位去查找它们。能够进行短语查询而不是简单的单词查询的优点是很明显的,比如,我们想要查找一个短语“TOBEORNOTTOBE“,如果只是把它们分解成单词的话,这些单词都是属于STOPWORD,这样这个查询就不会有任何结果,但是把它当作一个整体来查询,就很容易返回一些结果,比如关于哈姆雷特或者是莎士比亚等等的信息。系统对查询结果所得到的网页的打分是根据在网页中所包含的你的搜索短语的多少,它们在文档的什么位置以及搜索短语在文档内部之间的距离来决定的。同时可以把得到的搜索结果翻译成其他的语言。信息系统中的数据获取主要就是主要查找那些包含用户查询中的关键词文档。由于用户查询常常不能准确地表达用户的信息需求。实际上,用户更多的是希望获取于某个主题相关的信息,而非那些仅仅满足查询的数据。如果不能很好的解决搜索问题,在收集信息、从事内容方面的花费小型搜索引擎的设计与实现曹成6的人力物力越大,其浪费就越大。这不仅对政府、企业、院校的发展极为不利,还在宏观上成为制约我国信息化建设健康良性发展的一大障碍。搜索引擎不是单纯的技术问题。在互联网时代,哪一个公司掌握了包括搜索引擎、信息传递在内