蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > DOCX文档下载
 

搜索引擎-第二次实验报告.docx

  • 资源ID:582836       资源大小:372.35KB        全文页数:6页
  • 资源格式: DOCX        下载权限:游客/注册会员    下载费用:8积分 【人民币8元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要8积分 【人民币8元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

搜索引擎-第二次实验报告.docx

201620171学期搜索引擎技术实验报告1/6实验二实验一、实验目的根据网络爬虫的基本原理,实现一个简易网络爬虫,需要达到以下指标1、种子URL为WWWSWUSTEDUCN;2、至少抓取10000个页面;3、至少完成3轮抓取,每轮给出更新的URL及其数量;4、实现URL判重,列出每轮爬去时重复的URL数量;5、数据存放到数据库中,能抽取出网页中的标题、页面生成日期(HTTP协议中的时间),至少包含标题、时间、URL、抓取时间、网页正文这几个字段。二、实验方案1爬虫分析与设计我们组应用的是JAVA来写爬虫,我们应用SSM框架将数据库和应用程序连接起来,可以在程序中更简单的进行数据库插入、查询等操作。在对URL处理的时候我们用的是JAVA的URL类,通过这个类可以获得请求头的一些信息,例如编码方式。如何获取URL,我们一开始遇到了一些问题,直接解析网页中的REF标签的时候得到的不全是网页链接,所以转换思路,我们先得到页面中的标签,然后再得到标签里边HREF中的URL,然后再对URL进行处理。在处理URL的时候,因为网页中的URL并不是全部以HTTP开头的,所以在URL获取部分,对URL的格式进行判断,如果通常格式就进行修改,例如,有的链接是””,我们就把开始搜索的URL加到它的前边,形成一个正确的URL。201620171学期搜索引擎技术实验报告2/6图1应用URL类获取网页内容图2利用URL请求头获取编码信息图3获取A标签201620171学期搜索引擎技术实验报告3/6图41获取URL图42获取URL201620171学期搜索引擎技术实验报告4/6图5URL判重2数据库分析与设计我们设计了两个表,一个是未爬取URL表,两一个是已经爬取URL表。未爬取的表中村的是搜索判重之后,还没有爬取的URL,已爬取的存储爬取到的信息。图6判重后需要爬取的URL表图7爬取后URL信息存储表201620171学期搜索引擎技术实验报告5/6图9去重后URL的部分信息图10爬取结果部分信息图11网页内容存TXT部分信息三、实验结果及分析201620171学期搜索引擎技术实验报告6/6试验中每一次爬取的网页数量都是超过了10000的,达到了数量上的要求,但是在处理的过程中,对于中文的解析有的并不理想,这个是因为有的URL在请求头里边没有网页的编码信息,所以对于这种网页的处理是按照“UTF8”的编码方式处理的,所以得到的数据可能会有乱码。此外有的网页中没有标签,所以有的标题不可以得到。在一开始的时候爬虫程序就是简单的按顺序获取网页内容,内因程序写的效率不高,爬取2000网页就用了一个小时,所以在之后用到了三个线程同时爬取,使得爬取的速度有了很大的提升。图12三次爬取结果对比四、实验总结优点爬取数据的存取应用了数据库,相较文本而言,应用数据库在数据的存取上十分的方便,效率要高很多,因为如果用文本进行存取,每一次比较数据的时候都要把文本遍历一遍,时空效率都很低,另外用数据库存数据条目很清晰,可以方便观察爬取到的数据;爬取数据运用多线程,有效的提高了爬取效率,在没有用多线程进行爬取的时候2000个URL爬取了1个小时,之后用了3个线程同时爬取数据,爬取的效率有了明显的提高。缺点文本处理有瑕疵,有的网页在请求头没有给出编码信息,所以获得到的文本信息含有乱码,有的没有给出网页的发布时间,所以只有把发布时间默认成爬取的时间。有的网页中没有TITLE标签,没有办法得到URL的标题。在网上看到了一些论文,有针对乱码、网页文本提取等问题的解决方法,因为这一次的经验不够多,不能在时限之内完善爬虫的功能,之后会根据论文的描述进一步完善。

注意事项

本文(搜索引擎-第二次实验报告.docx)为本站会员(战狼3)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开