Python网络爬虫实习报告

资源ID：54769710 资源大小：596.50KB 全文页数：14页
资源格式： PDF 下载权限：游客/注册会员 下载费用：15积分【人民币15元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要15积分【人民币15元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

下载资源需要15积分【人民币15元】

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

Python网络爬虫实习报告

Python 网络爬虫实习报告 Python 网络爬虫实习报告 0 / 14 Python 网络爬虫实习报告目录目录一、选题背景一、选题背景. - 1 -. - 1 - 二、爬虫原理二、爬虫原理. - 1 -. - 1 - 三、爬虫历史和分类三、爬虫历史和分类. . - 1 - - 1 - 四、常用爬虫框架比较四、常用爬虫框架比较. . - 1 - - 1 - 五、数据爬取实战（豆瓣网爬取电影数据）五、数据爬取实战（豆瓣网爬取电影数据）. . - 2 - - 2 - 1 分析网页 . - 2- 2 爬取数据 . - 2- 3 数据整理、转换 - 3- 4 数据保存、展示 - 8- 5 技术难点关键点 - 9- 六、总结六、总结 . - 12 - . - 12 - - 0 - / 14 Python 网络爬虫实习报告一、一、选选题背景题背景二、二、爬爬虫原理虫原理三、三、爬爬虫历史和分类虫历史和分类四、四、常常用爬虫框架比较用爬虫框架比较 ScrapyScrapy 框架框架 Scrapy 框架是一套比较成熟的 Python 爬虫框架，是使用 Python 开发的快速、高层次的信息爬取框架，可以高效的爬取web 页面并提取出结构化数据。 Scrapy 应用范围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。 CrawleyCrawley 框架框架 Crawley 也是 Python 开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。 PortiaPortia 框架框架 Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。 newspapernewspaper 框架框架 newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。 Python-goosePython-goose 框架框架Python-goose 框架可提取的信息包括文章主体内容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视频;元描述;元标签 - 1 - / 14 Python 网络爬虫实习报告五、数据爬取实战（豆瓣网爬取电影数据）五、数据爬取实战（豆瓣网爬取电影数据） 1 1 分析网页分析网页获取获取htmlhtml源代码源代码 def __getHtmldef __getHtml data [] data [] pageNum 1 pageNum 1 pageSize 0 pageSize 0 try try while pageSize s“ - 6 - / 14 Python 网络爬虫实习报告 data[title][i]data[title][i] f.write“s“ data[rating_num][i]data[rating_num][i] f.write“s“ data[range_num][i]data[range_num][i] f.write“s“ data[rating_people_num][i]data[rating_people_num][i] f.write“s“ data[movie_author][i]data[movie_author][i] f.write““ f.write““ f.write““ f.write““ f.write““f.write““ f.write““ f.write““ f.write““ f.write““ f.write““ f.write““ f.close f.close - 7 - / 14 Python 网络爬虫实习报告 if __name__ __main__if __name__ __main__ datas [] datas [] htmls __getHtml htmls __getHtml for i in rangelenhtmls for i in rangelenhtmls data __getDatahtmls[i] data __getDatahtmls[i] datas.appenddata datas.appenddata __getMoviesdatas__getMoviesdatas 4 4 数据保存、展示数据保存、展示结果如后图所示 - 8 - / 14 Python 网络爬虫实习报告 5 5 技术难点关键点技术难点关键点数据爬取实战（搜房网爬取房屋数据）数据爬取实战（搜房网爬取房屋数据） fromfrom bs4 importimport BeautifulSoup importimport requests rep requests.get rep.encoding “gb2312““gb2312“ 设置编码方式 html rep.text soup BeautifulSouphtml, html.parserhtml.parser - 9 - / 14 Python 网络爬虫实习报告 f openF//fang.htmlF//fang.html, ww,encodingutf-8utf-8 f.write““““ f.write“Insert title“Insert title here“here“ f.write““““ f.write““新房成交新房成交 TOP3“TOP3“ f.write““ f.write““房址房址““ f.write““成交量成交量““ f.write““均价均价““ forfor li inin soup.find“ul““ul“,class_“ul02““ul02“.find_all“li““li“ nameli.find“div““div“,class_“pbtext““pbtext“.find“p““p“.text chengjiaoliangli.find“span““span“,class_“red-f3““red-f3“.text trytry junjiali.find“div““div“,class_“ohter““ohter“.find“p““p“,class_“gray-9“gray-9 “ “.text.replace �O, 平方米 exceptexcept Exception asas e junjiali.find“div““div“,class_“gray-9““gray-9“.text.replace �O, - 10 - / 14 Python

注意事项

本文（Python网络爬虫实习报告）为本站会员（sunhongz117）主动上传，蚂蚁文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知蚂蚁文库（发送邮件至2303240369@qq.com或直接QQ联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。