Python网络爬虫实习报告-python实习报告

资源ID：54769712 资源大小：304.28KB 全文页数：7页
资源格式： PDF 下载权限：游客/注册会员 下载费用：10积分【人民币10元】

快捷注册下载

会员登录下载

三方登录下载：

下载资源需要10积分【人民币10元】

邮箱/手机：
温馨提示：	支付成功后，系统会自动生成账号（用户名和密码都是您填写的邮箱或者手机号），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

下载资源需要10积分【人民币10元】

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰

网站客服

侵权投诉

Python网络爬虫实习报告-python实习报告

Python 网络爬虫实习陈述之邯郸勺丸创作目录目录一、选题布景一、选题布景- 2 -- 2 - 二、爬虫原理二、爬虫原理- 2 -- 2 - 三、爬虫历史和分类三、爬虫历史和分类- 2 -- 2 - 错误未指定书签。错误未指定书签。分析网页-1- 2 爬取数据-7- 3 数据整理、转换-10- 4 数据保管、展示-12- 5 技术难点关键点-12- 六、总结六、总结- 14 -- 14 - 一、一、选选题布景题布景二、二、爬爬虫原理虫原理三、三、爬爬虫历史和分类虫历史和分类四、四、经经常使用爬虫框架比较常使用爬虫框架比较 Scrapy 框架Scrapy 框架是一套比较成熟的 Python 爬虫框架，是使用 Python 开发的快速、高条理的信息爬取框架，可以高效的爬取 web 页面并提取出结构化数据。Scrapy 应用范围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。 Crawley 框架Crawley 也是 Python 开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。 Portia 框架Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。 newspaper 框架newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。 Python-goose 框架Python-goose 框架可提取的信息包含文章主体内容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视频;元描述; 元标签五、数据爬取实战（豆瓣网爬取电影数据）五、数据爬取实战（豆瓣网爬取电影数据） 1 1 分析网页分析网页获取 html 源代码 def __getHtml data [] pageNum 1 pageSize 0 try while pageSize 125 headers {User-AgentMozilla/5.0 Windows NT 6.1 AppleWebKit/537.11 KHTML, like Gecko Chrome/23.0.1271.64 Safari/537.11, RefererNone 注意如果依然不克不及抓取的话，这里可以设置抓取网站的 host } opener urllib.request.build_opener opener.addheaders [headers] url “ strpageSize “filter“ strpageNum data[htmls i ]urllib.request.urlopenurl.read.decode“utf-8“ data.appendurllib.request.urlopenurl.read.decode“utf-8“ pageSize 25 pageNum 1 printpageSize, pageNum except Exception as e raise e return data 2 2 爬取数据爬取数据 def __getDatahtml title [] 电影题目 rating_num [] 评分 range_num [] 排名 rating_people_num [] 评价人数 movie_author [] 导演 data {} bs4 解析 html soup BeautifulSouphtml, “html.parser“ for li in soup.find“ol“, attrs{class grid_view}.find_all“li“ title.appendli.find“span“, class_“title“.text rating_num.appendli.find“div“, class_star.find“span“, class_rating_num.text range_num.appendli.find“div“, class_pic.find“em“.text spans li.find“div“, class_star.find_all“span“ for x in rangelenspans if x 2 pass else rating_people_num.appendspans[x].string[-lenspans[x].string-3] str li.find“div“, class_bd.find“p“, class_.text.lstrip index str.find“主“ if index -1 index str.find“.“ printli.find“div“, class_pic.find“em“.text if li.find“div“, class_pic.find“em“.text 210 index 60 print“aaa“ printstr[4index] movie_author.appendstr[4index] data[title] title data[rating_num] rating_num data[range_num] range_num data[rating_people_num] rating_people_num data[movie_author] movie_author return data 3 3 数据整理、转换数据整理、转换 def __getMoviesdata f openF//douban_movie.html, w,encodingutf-8 f.write““ f.write“Insert title here“ f.write““ f.write“爬取豆瓣电影“ f.write“ 作者刘文斌“ f.write“ 时间“ nowtime ““ f.write““ f.write““ f.write““ f.write““ f.write“电影“ f.write“评分“ f.write“排名“ f.write“评价人数“ f.write“导演“ f.write““ f.write““ f.write““ for data in datas for i in range0, 25 f.write““ f.write“s“ data[title]

注意事项

本文（Python网络爬虫实习报告-python实习报告）为本站会员（sunhongz116）主动上传，蚂蚁文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知蚂蚁文库（发送邮件至2303240369@qq.com或直接QQ联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。