蚂蚁文库
换一换
首页 蚂蚁文库 > 资源分类 > PDF文档下载
 

Python网络爬虫实习报告-python实习报告

  • 资源ID:54769712       资源大小:304.28KB        全文页数:7页
  • 资源格式: PDF        下载权限:游客/注册会员    下载费用:10积分 【人民币10元】
快捷注册下载 游客一键下载
会员登录下载
三方登录下载: 微信快捷登录 QQ登录  
下载资源需要10积分 【人民币10元】
邮箱/手机:
温馨提示:
支付成功后,系统会自动生成账号(用户名和密码都是您填写的邮箱或者手机号),方便下次登录下载和查询订单;
支付方式: 微信支付    支付宝   
验证码:   换一换

 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

Python网络爬虫实习报告-python实习报告

Python 网络爬虫实习陈述之邯郸勺丸创作 目录目录 一、选题布景一、选题布景- 2 -- 2 - 二、爬虫原理二、爬虫原理- 2 -- 2 - 三、爬虫历史和分类三、爬虫历史和分类- 2 -- 2 - 错误未指定书签。 错误未指定书签。 分析网页-1- 2 爬取数据-7- 3 数据整理、转换-10- 4 数据保管、展示-12- 5 技术难点关键点-12- 六、总结六、总结- 14 -- 14 - 一、一、选选题布景题布景 二、二、爬爬虫原理虫原理 三、三、爬爬虫历史和分类虫历史和分类 四、四、经经常使用爬虫框架比较常使用爬虫框架比较 Scrapy 框架Scrapy 框架是一套比较成熟的 Python 爬虫框架,是使用 Python 开 发的快速、高条理的信息爬取框架,可以高效的爬取 web 页面并提取出结构化数 据。Scrapy 应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。 Crawley 框架Crawley 也是 Python 开发出的爬虫框架,该框架致力于改变人们 从互联网中提取数据的方式。 Portia 框架Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页 的爬虫框架。 newspaper 框架newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。 Python-goose 框架Python-goose 框架可提取的信息包含文章主体内 容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视频;元描述; 元标签 五、数据爬取实战(豆瓣网爬取电影数据)五、数据爬取实战(豆瓣网爬取电影数据) 1 1 分析网页分析网页 获取 html 源代码 def __getHtml data [] pageNum 1 pageSize 0 try while pageSize 125 headers {User-AgentMozilla/5.0 Windows NT 6.1 AppleWebKit/537.11 KHTML, like Gecko Chrome/23.0.1271.64 Safari/537.11, RefererNone 注意如果依然不克不及抓取的话,这里可以设置抓取网站的 host } opener urllib.request.build_opener opener.addheaders [headers] url “ strpageSize “filter“ strpageNum data[htmls i ]urllib.request.urlopenurl.read.decode“utf-8“ data.appendurllib.request.urlopenurl.read.decode“utf-8“ pageSize 25 pageNum 1 printpageSize, pageNum except Exception as e raise e return data 2 2 爬取数据爬取数据 def __getDatahtml title [] 电影题目 rating_num [] 评分 range_num [] 排名 rating_people_num [] 评价人数 movie_author [] 导演 data {} bs4 解析 html soup BeautifulSouphtml, “html.parser“ for li in soup.find“ol“, attrs{class grid_view}.find_all“li“ title.appendli.find“span“, class_“title“.text rating_num.appendli.find“div“, class_star.find“span“, class_rating_num.text range_num.appendli.find“div“, class_pic.find“em“.text spans li.find“div“, class_star.find_all“span“ for x in rangelenspans if x 2 pass else rating_people_num.appendspans[x].string[-lenspans[x].string-3] str li.find“div“, class_bd.find“p“, class_.text.lstrip index str.find“主“ if index -1 index str.find“.“ printli.find“div“, class_pic.find“em“.text if li.find“div“, class_pic.find“em“.text 210 index 60 print“aaa“ printstr[4index] movie_author.appendstr[4index] data[title] title data[rating_num] rating_num data[range_num] range_num data[rating_people_num] rating_people_num data[movie_author] movie_author return data 3 3 数据整理、转换数据整理、转换 def __getMoviesdata f openF//douban_movie.html, w,encodingutf-8 f.write““ f.write“Insert title here“ f.write““ f.write“爬取豆瓣电影“ f.write“ 作者刘文斌“ f.write“ 时间“ nowtime ““ f.write““ f.write““ f.write““ f.write““ f.write“电影“ f.write“评分“ f.write“排名“ f.write“评价人数“ f.write“导演“ f.write““ f.write““ f.write““ for data in datas for i in range0, 25 f.write““ f.write“s“ data[title]

注意事项

本文(Python网络爬虫实习报告-python实习报告)为本站会员(sunhongz116)主动上传,蚂蚁文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蚂蚁文库(发送邮件至2303240369@qq.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们


网站客服QQ:2303240369

copyright@ 2017-2027 mayiwenku.com 

网站版权所有  智慧蚂蚁网络

经营许可证号:ICP备2024020385号



收起
展开