定向网络爬虫-开题报告

资源ID：53163189 资源大小：36.50KB 全文页数：8页
资源格式： DOC 下载权限：游客/注册会员 下载费用：15积分【人民币15元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要15积分【人民币15元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

下载资源需要15积分【人民币15元】

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

定向网络爬虫-开题报告

山东科技大学本科毕业设计（论文）开题报告题目网络爬虫定向爬取脚本之家文本信息学院名称信息科学与工程学院专业班级计算机科学与技术2012级2班学生姓名包志英学号 201201050201 指导教师赵中英填表时间二0一六年三月二十八日设计（论文）题目网络爬虫定向爬取脚本之家文本信息设计（论文）类型（划“√”）工程设计应用探讨开发探讨基础探讨其它 √ 一、本课题的探讨目的和意义本课题的主要目的是设计面对主题的网络爬虫程序，同时须要满意的是具有肯定的性能，要考虑到网络爬虫的各种需求。网络爬虫主体网站的特性。对url进行构造。网络爬虫运用scrapy实现多线程，让爬虫具备更强大的抓取实力和敏捷性。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间，避开无限制的等待。探讨网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应当能依据设定的主题，从构造的url进行肯定数据爬取，并最终得到须要的数据互联网是一个浩大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜寻引擎作为一个协助人们检索信息的工具。但是，这些通用性搜寻引擎也存在着肯定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜寻引擎所返回的结果包含大量用户不关切的网页。为了解决这个问题，一个敏捷的爬虫有着无可替代的重要意义。二、本课题的主要探讨内容（提纲）本课题探讨的内容是如何使网络爬虫敏捷高效。 1. 如何更具网站主体特性不同构造URL。 2. 如何具备更强的抓取实力。 3. 如何辨别重复的网页内容。 4. 如何确定主题相关性。 5. 对于对线程并发的处理。 6. 对于缓存和并发恳求的处理 7. 对反扒机制的应对 8. 对于网络时延等的处理。 9. 对于数据的存储格式与形式三、文献综述（国内外探讨状况及其发展）对于网络爬虫的探讨从上世纪九十年头就起先了，目前爬虫技术已经趋见成熟，网络爬虫是搜寻引擎的重要组成部分。网络上比较闻名的开源爬虫包括Nutch，Larbin，Heritrix。网络爬虫最重要的是网页搜寻策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。国内外流行的爬虫技术相当多，许多人喜爱基于Python的，也有人喜爱用C，许多人由于系统集成开发和跨平台的须要倾向于java，我跟喜爱用Python。就原理来说，爬虫组件都是差不多的，无头阅读器，最能够说明爬虫的特性，它们被设计创建出来，大部分状况是用于自动化测试的。基于socket的 client功能简洁，性能强大，特殊是在高并发的状况下，而被大家所青睐，特殊是搜寻引擎中，假如抓取静态页面， client特别适合。当遇到ajax加载的信息，就须要javascript效果渲染的时候， client就不行了，htmlunit是基于 client加入Rhino引擎实现js渲染的无头阅读器，当然包含了 client的特性，然而，由于内存泄露的问题，高并发的状态下，并不能很稳定的工作，内存消耗随着程序的运行而不断增大，直到达到jvm安排的上限而崩溃。许多时候，你只能做个权衡，每个webclient运用若干次后就把它回收，然后重新启动一个，这特别影响性能。Rhino对于javascript的支持并不好，实际运用中，会发觉各种Exception，许多时候会导致无法渲染出想要的结果，这个htmlunit的又一大缺陷。随着版本的更新，能够渐次解决一些问题，但是好的程序员，还是应当自己读源码来尝试解决问题。 Phantomjs相比于htmlunit，对于js的支持更接近真实的阅读器，但是并发性能差，通过java的c调用系统吩咐来启动，更加降低了性能。此外主流的阅读器都供应了相应的抓取支持，selenium可谓是一个集大成者，包含了上述的全部组件，以WebDriver的形式，适配各种爬虫组件，你可以用它操控阅读器自动抓取，当然，并发和性能的问题依旧存在。爬虫开发的主要问题是性能和反封锁。许多时候，采纳高并发高频率抓取数据是可行的，前提是目标站点没有采纳任何反爬措施（访问频率限制、防火墙、验证码）；更多时候，有价值的信息，肯定伴随着严格的反爬措施，一旦ip被封，什么组件都没戏了。你不得不维护一个代理IP池来解决这个问题，当然，这也带来了代理ip稳定性和速度的问题，这些问题都是无法回避的问题，我们须要针对详细的状况，采纳对应的措施，以最大限度的完成爬虫爬取任务。目前，爬虫的需求呈爆炸式增长的趋势，这是当前各种互联网创新和大数据时代的新常态。火车和八爪鱼等团队看到了这一点，并领先开发了相对完备的爬虫产品，许多用户都在运用，但是更多的用户希望干脆把爬虫抓取任务外包出去，因为他们不懂技术，工具的运用须要逾越技术的鸿沟，大部分用户并没有这个逾越鸿沟的准备。我信任像猪八戒这样的技术外包平台会活的越来越好，我也信任各个技术门类会不断聚集，形成相对独立的社区，P2P的社区平台将供应爬虫开发者和爬虫需求者更加通畅的沟通渠道。目前，淘宝等平台上出现许多爬虫服务商，如 //item.taobao /item.htmspma230r.1.14.4.10ZOWjid42659198536ns1abbucket6detail，这种定制开发的服务，增加了服务商的成本，服务往往是一次性的，满意了一个用户的需求，然而具有相像需求的用户，却很难有机会找到这个服务商，这就是为什么我们须要爬虫信息沟通的平台。我有意建立这样的平台，不管是微博、微信公众号、文章，还是政府门户的信息公开，或者门户网站、新闻社区等媒体，或者其他领域如金融的数据，都可以在平台上找到，也很简洁实现供应和需求者的相互匹配。然而，对于这其中的法律问题，特殊是学问产权问题，不甚明白，除了robots协议，许多数据网站都会另外声明其数据运用规范，同时，如大众点评等网站供应的API很难满意分析的须要，就形成了数据被独占而其价值得不到有效开发的不合理现象。大数据时代，对大数据的分析应当成为一个行业，数据拥有者应当开放数据的分析接口，让数据的价值释放，而爬虫开发者，许多时候是数据分析者（最至少是个数据清洗和筛选者）。他们蒙上了一层神奇面纱，带着一丝黑客气息，法律应当给他们更大的生存空间，让这个有价值的行业创建更大的价值。四、拟解决的关键问题使网络爬虫高效敏捷, 在主题网站中尽量全

注意事项

本文（定向网络爬虫-开题报告）为本站会员（18244465852）主动上传，蚂蚁文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知蚂蚁文库（发送邮件至2303240369@qq.com或直接QQ联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。