蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > PDF文档下载
 

Python网络爬虫实习报告

  • 资源ID:54769710       资源大小:596.50KB        全文页数:14页
  • 资源格式: PDF        下载权限:游客/注册会员    下载费用:15积分 【人民币15元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要15积分 【人民币15元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

Python网络爬虫实习报告

Python 网络爬虫实习报告 Python 网络爬虫实习报告 0 / 14 Python 网络爬虫实习报告 目录目录 一、选题背景一、选题背景. - 1 -. - 1 - 二、爬虫原理二、爬虫原理. - 1 -. - 1 - 三、爬虫历史和分类三、爬虫历史和分类. . - 1 - - 1 - 四、常用爬虫框架比较四、常用爬虫框架比较. . - 1 - - 1 - 五、数据爬取实战(豆瓣网爬取电影数据)五、数据爬取实战(豆瓣网爬取电影数据). . - 2 - - 2 - 1 分析网页 . - 2- 2 爬取数据 . - 2- 3 数据整理、转换 - 3- 4 数据保存、展示 - 8- 5 技术难点关键点 - 9- 六、总结六、总结 . - 12 - . - 12 - - 0 - / 14 Python 网络爬虫实习报告 一、一、选选题背景题背景 二、二、爬爬虫原理虫原理 三、三、爬爬虫历史和分类虫历史和分类 四、四、常常用爬虫框架比较用爬虫框架比较 ScrapyScrapy 框架框架 Scrapy 框架是一套比较成熟的 Python 爬虫框架, 是使用 Python 开发的快速、高层次的信息爬取框架,可以高效的爬取web 页 面并提取出结构化数据。 Scrapy 应用范围很广,爬虫开发、数据挖掘、 数据监测、自动化测试等。 CrawleyCrawley 框架框架 Crawley 也是 Python 开发出的爬虫框架, 该框架致力于 改变人们从互联网中提取数据的方式。 PortiaPortia 框架框架 Portia 框架是一款允许没有任何编程基础的用户可视化 地爬取网页的爬虫框架。 newspapernewspaper 框架框架 newspaper 框架是一个用来提取新闻、文章以及内容 分析的 Python 爬虫框架。 Python-goosePython-goose 框架框架Python-goose 框架可提取的信息包括文章 主体内容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视 频;元描述;元标签 - 1 - / 14 Python 网络爬虫实习报告 五、数据爬取实战(豆瓣网爬取电影数据)五、数据爬取实战(豆瓣网爬取电影数据) 1 1 分析网页分析网页 获取获取htmlhtml源代码源代码 def __getHtmldef __getHtml data [] data [] pageNum 1 pageNum 1 pageSize 0 pageSize 0 try try while pageSize s“ - 6 - / 14 Python 网络爬虫实习报告 data[title][i]data[title][i] f.write“s“ data[rating_num][i]data[rating_num][i] f.write“s“ data[range_num][i]data[range_num][i] f.write“s“ data[rating_people_num][i]data[rating_people_num][i] f.write“s“ data[movie_author][i]data[movie_author][i] f.write““ f.write““ f.write““ f.write““ f.write““f.write““ f.write““ f.write““ f.write““ f.write““ f.write““ f.write““ f.close f.close - 7 - / 14 Python 网络爬虫实习报告 if __name__ __main__if __name__ __main__ datas [] datas [] htmls __getHtml htmls __getHtml for i in rangelenhtmls for i in rangelenhtmls data __getDatahtmls[i] data __getDatahtmls[i] datas.appenddata datas.appenddata __getMoviesdatas__getMoviesdatas 4 4 数据保存、展示数据保存、展示 结果如后图所示 - 8 - / 14 Python 网络爬虫实习报告 5 5 技术难点关键点技术难点关键点 数据爬取实战(搜房网爬取房屋数据)数据爬取实战(搜房网爬取房屋数据) fromfrom bs4 importimport BeautifulSoup importimport requests rep requests.get rep.encoding “gb2312““gb2312“ 设置编码方式 html rep.text soup BeautifulSouphtml, html.parserhtml.parser - 9 - / 14 Python 网络爬虫实习报告 f openF//fang.htmlF//fang.html, ww,encodingutf-8utf-8 f.write““““ f.write“Insert title“Insert title here“here“ f.write““““ f.write““新房成交新房成交 TOP3“TOP3“ f.write““ f.write““房址房址““ f.write““成交量成交量““ f.write““均价均价““ forfor li inin soup.find“ul““ul“,class_“ul02““ul02“.find_all“li““li“ nameli.find“div““div“,class_“pbtext““pbtext“.find“p““p“.text chengjiaoliangli.find“span““span“,class_“red-f3““red-f3“.text trytry junjiali.find“div““div“,class_“ohter““ohter“.find“p““p“,class_“gray-9“gray-9 “ “.text.replace �O, 平方米 exceptexcept Exception asas e junjiali.find“div““div“,class_“gray-9““gray-9“.text.replace �O, - 10 - / 14 Python

注意事项

本文(Python网络爬虫实习报告)为本站会员(sunhongz117)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开