蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOC文档下载
 

基于lucene的垂直搜索引擎的设计与实现.doc

  • 资源ID:582779       资源大小:3.29MB        全文页数:71页
  • 资源格式: DOC        下载权限:游客/注册会员    下载费用:20积分 【人民币20元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要20积分 【人民币20元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

基于lucene的垂直搜索引擎的设计与实现.doc

哈尔滨工业大学(威海)本科毕业设计(论文)I摘要信息检索是当今互联网业界最为流行的技术之一。目前大约有85的网络用户首选搜索引擎去定位所需信息,几个著名的搜索引擎一直稳定地排在全球访问量最大的前10个网站之列。而随着网络信息资源的急剧膨胀,传统搜索面临着“认知过载”和“信息迷航”等问题,用户需求与市场服务之间的巨大反差形成了明显的“检索噪音”,于是垂直搜索应运而生。垂直搜索引擎可以向用户提供最精确和最具深度的专业信息,更有效地满足用户的搜索需求。因而一个面向特定领域的垂直搜索引擎系统具有较强的实用价值。为此,本文研究并实现了一个基于LUCENE平台、面向院士信息领域的垂直搜索引擎,主要解决了如下几个方面的问题1针对信息来源的问题,通过定制开源架构的WEB爬虫HERITRIX下载中科院全体院士信息的相关网页,完成信息抓取任务;2针对网页信息提取的问题,通过研究和分析现有正文提取算法及其不足,提出并设计基于块字数分布的正文抽取算法,使之具备较高的准确性和良好的通用性;3针对检索的效率和准确性,设计中保持LUCENE索引创建与数据库内容添加同步进行,以实现索引检索与数据库访问的一致性;4针对检索功能的设计,使用SPRING框架和面向接口类的编程实现检索后台的解耦合,在WEB前端通过AJAX技术封装框架DWR完成与后端服务器程序的映射转换,实现可异步执行的检索;5针对用户体验的问题,通过填充了人名词库的JE分词实例构建QUERYPARSER,以较好地解析用户输入,达到用户满意的搜索效果。整个系统具备良好的可扩展性,涵盖独立的算法设计思想,展现了一个典型的垂直搜索系统的设计全过程。关键词垂直搜索;LUCENE;网页正文抽取;HERITRIX;院士信息哈尔滨工业大学(威海)本科毕业设计(论文)IIABSTRACTINATIONSEARCHISONEOFTHEMOSTPRACTICALTECHNICSININTERNETWORKTODAYNOWABOUT85OFINTERNETUSERSPREFERSEARCHENGINETOPOSITIONINGINATIONTHEYNEEDFAMOUSSEARCHENGINESHAVEBEENSTEADILYAMONGTHEWORLDSTOP10WEBSITESWHICHOWNTHEMOSTTRAFFICALONGWITHTHERAPIDEXPANSIONOFTHENETWORKINATIONRESOURCES,HOWEVER,WHEREVERTICALSEARCHAROSE,TRADITIONALSEARCHHASBEENFACINGSUCHPROBLEMSAS“COGNITIVEOVERLOADING“AND“INATIONMAZING“,THEGREATCONTRASTBETWEENUSERSDEMANDANDMARKETSERVICEEDTHEAPPARENT“RETRINOISE“VERTICALSEARCHENGINESCANPROVIDETHEMOSTACCURATEANDMOSTSIGNIFICANTPROFESSIONALINATION,WHICHCATERSTOUSERSNEEDMOREEFFECTIVELYSOAVERTICALSEARCHENGINESYSTERMFACEDTOPARTICULARFIELDHASASTRONGPRACTICALVALUEFORTHISREASON,AVERTICALSEARCHENGINEBASEDONLUCENEANDORIENTEDTOTHEACADEMICIANSINATIONISDESIGNEDANDIMPLEMENTEDINACCORDANCEWITHTHEFOLLOWINGS1THEPROBLEMFORTHESOURCESOFINATIONISSOLVEDBYCUSTOMIZINGTHEOPENSOURCEFRAMEWORKHERITRIXTODOWNLOADALLTHEACADEMICIANSINATION,WHICHCOMPLETESTHETASKOFINATIONCAPTURING2ASTOTHEINATIONRETRIPROBLEMS,THEPAPERPROPOSESANDDESIGNSANEWTEXTEXTRACTIONALGORITHMWHICHCALCULATINGTHENUMBEROFTHETEXTSWORDSTOEXTRACTTHUABLEINATIONTHROUGHRESEARCHANDANALYSISOFTHELACKOFTHEEXISTINGTEXTEXTRACTIONALGORITHM3TOENSURETHEEFFICIENCYANDACCURACYOFSEARCH,THEDESIGNMAINTAINSTHECREATIONOFLUCENEINDEXANDTHEFILLINGOFDATABASECONTENTSIMULTANEOUSLY,WHICHACHIEVESTHECONSISTENCYBETWEENINDEXRETRIANDDATABASEACCESS4INTHEDESIGNOFTHESEARCHFUNCTION,USINGTHESPRINGFRAMEWORKANDINTERFACEORIENTEDPROGRAMMINGTORETRIEVETHEDECOUPLINGOFTHEBACKGROUND,WHILEINTHEFRONTENDOFWEB,PUTTINGDWR,AFRAMEWORKFORAJAXTECHNOLOGYPACKAGETOUSETOBETRANSEDFROMTHEBACKENDSERVER,WHICHCANACHIEVEASYNCHRONOUSRETRIFINALLY5TOACHIEVEAREASONABLEEFFECTFORUSEREXPERIENCE,THEDESIGNCREATESTHEQUERYPARSEROBJECTWHICHCANANALYZEUSERSQUERYMOREACCURATELYBYUSING哈尔滨工业大学(威海)本科毕业设计(论文)IIIJEANALYZEROBJECTWHERETHEDICTIONARYOFACADEMICIANSNAMESHASBEENADDEDTHEOVERALLSYSTEMMAINTAINSGOODSCALABILITYANDINCLUDESANINDEPENDENTALGORITHM,WHICHSHOWSTHEWHOLEDESIGNPROCESSOFATYPICALVERTICALSEARCHSYSTEMKEYWORDSVERTICALSEARCH,LUCENE,HTMLTEXTEXTRACTIONALGORITHM,HERITRIX,ACADEMICIANINATION哈尔滨工业大学(威海)本科毕业设计(论文)IV目录摘要IABSTRACTII第1章绪论111课题背景112课题来源、目的和意义213国内外研究现

注意事项

本文(基于lucene的垂直搜索引擎的设计与实现.doc)为本站会员(战狼3)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开