基于lucene的垂直搜索引擎的设计与实现.doc
哈尔滨工业大学(威海)本科毕业设计(论文)I摘要信息检索是当今互联网业界最为流行的技术之一。目前大约有85的网络用户首选搜索引擎去定位所需信息,几个著名的搜索引擎一直稳定地排在全球访问量最大的前10个网站之列。而随着网络信息资源的急剧膨胀,传统搜索面临着“认知过载”和“信息迷航”等问题,用户需求与市场服务之间的巨大反差形成了明显的“检索噪音”,于是垂直搜索应运而生。垂直搜索引擎可以向用户提供最精确和最具深度的专业信息,更有效地满足用户的搜索需求。因而一个面向特定领域的垂直搜索引擎系统具有较强的实用价值。为此,本文研究并实现了一个基于LUCENE平台、面向院士信息领域的垂直搜索引擎,主要解决了如下几个方面的问题1针对信息来源的问题,通过定制开源架构的WEB爬虫HERITRIX下载中科院全体院士信息的相关网页,完成信息抓取任务;2针对网页信息提取的问题,通过研究和分析现有正文提取算法及其不足,提出并设计基于块字数分布的正文抽取算法,使之具备较高的准确性和良好的通用性;3针对检索的效率和准确性,设计中保持LUCENE索引创建与数据库内容添加同步进行,以实现索引检索与数据库访问的一致性;4针对检索功能的设计,使用SPRING框架和面向接口类的编程实现检索后台的解耦合,在WEB前端通过AJAX技术封装框架DWR完成与后端服务器程序的映射转换,实现可异步执行的检索;5针对用户体验的问题,通过填充了人名词库的JE分词实例构建QUERYPARSER,以较好地解析用户输入,达到用户满意的搜索效果。整个系统具备良好的可扩展性,涵盖独立的算法设计思想,展现了一个典型的垂直搜索系统的设计全过程。关键词垂直搜索;LUCENE;网页正文抽取;HERITRIX;院士信息哈尔滨工业大学(威海)本科毕业设计(论文)IIABSTRACTINATIONSEARCHISONEOFTHEMOSTPRACTICALTECHNICSININTERNETWORKTODAYNOWABOUT85OFINTERNETUSERSPREFERSEARCHENGINETOPOSITIONINGINATIONTHEYNEEDFAMOUSSEARCHENGINESHAVEBEENSTEADILYAMONGTHEWORLD STOP10WEBSITESWHICHOWNTHEMOSTTRAFFICALONGWITHTHERAPIDEXPANSIONOFTHENETWORKINATIONRESOURCES,HOWEVER,WHEREVERTICALSEARCHAROSE,TRADITIONALSEARCHHASBEENFACINGSUCHPROBLEMSAS“COGNITIVEOVERLOADING“AND“INATIONMAZING“,THEGREATCONTRASTBETWEENUSERS DEMANDANDMARKETSERVICEEDTHEAPPARENT“RETRINOISE“VERTICALSEARCHENGINESCANPROVIDETHEMOSTACCURATEANDMOSTSIGNIFICANTPROFESSIONALINATION,WHICHCATERSTOUSERS NEEDMOREEFFECTIVELYSOAVERTICALSEARCHENGINESYSTERMFACEDTOPARTICULARFIELDHASASTRONGPRACTICALVALUEFORTHISREASON,AVERTICALSEARCHENGINEBASEDONLUCENEANDORIENTEDTOTHEACADEMICIANS INATIONISDESIGNEDANDIMPLEMENTEDINACCORDANCEWITHTHEFOLLOWINGS1THEPROBLEMFORTHESOURCESOFINATIONISSOLVEDBYCUSTOMIZINGTHEOPENSOURCEFRAMEWORKHERITRIXTODOWNLOADALLTHEACADEMICIANS INATION,WHICHCOMPLETESTHETASKOFINATIONCAPTURING2ASTOTHEINATIONRETRIPROBLEMS,THEPAPERPROPOSESANDDESIGNSANEWTEXTEXTRACTIONALGORITHMWHICHCALCULATINGTHENUMBEROFTHETEXT SWORDSTOEXTRACTTHUABLEINATIONTHROUGHRESEARCHANDANALYSISOFTHELACKOFTHEEXISTINGTEXTEXTRACTIONALGORITHM3TOENSURETHEEFFICIENCYANDACCURACYOFSEARCH,THEDESIGNMAINTAINSTHECREATIONOFLUCENEINDEXANDTHEFILLINGOFDATABASECONTENTSIMULTANEOUSLY,WHICHACHIEVESTHECONSISTENCYBETWEENINDEXRETRIANDDATABASEACCESS4INTHEDESIGNOFTHESEARCHFUNCTION,USINGTHESPRINGFRAMEWORKANDINTERFACEORIENTEDPROGRAMMINGTORETRIEVETHEDECOUPLINGOFTHEBACKGROUND,WHILEINTHEFRONTENDOFWEB,PUTTINGDWR,AFRAMEWORKFORAJAXTECHNOLOGYPACKAGETOUSETOBETRANSEDFROMTHEBACKENDSERVER,WHICHCANACHIEVEASYNCHRONOUSRETRIFINALLY5TOACHIEVEAREASONABLEEFFECTFORUSEREXPERIENCE,THEDESIGNCREATESTHEQUERYPARSEROBJECTWHICHCANANALYZEUSERS QUERYMOREACCURATELYBYUSING哈尔滨工业大学(威海)本科毕业设计(论文)IIIJEANALYZEROBJECTWHERETHEDICTIONARYOFACADEMICIANS NAMESHASBEENADDEDTHEOVERALLSYSTEMMAINTAINSGOODSCALABILITYANDINCLUDESANINDEPENDENTALGORITHM,WHICHSHOWSTHEWHOLEDESIGNPROCESSOFATYPICALVERTICALSEARCHSYSTEMKEYWORDSVERTICALSEARCH,LUCENE,HTMLTEXTEXTRACTIONALGORITHM,HERITRIX,ACADEMICIANINATION哈尔滨工业大学(威海)本科毕业设计(论文)IV目录摘要IABSTRACTII第1章绪论111课题背景112课题来源、目的和意义213国内外研究现