【python教程】七天爬虫速成版教程(第六天)

零 Python教程评论97字数 469阅读1分33秒阅读模式

七天爬虫速成版的目录

1.环境搭建与第一个python项目文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

2.If条件判断语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

3.For循环控制语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

4.列表与函数文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

5.文件操作(文件存储与读取)文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

【python教程】七天爬虫速成版教程(第五天)文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

6.爬虫准备工作(各类库的安装、讲解)
7.豆瓣电影资源爬取、保存

教程开始:

1.
豆瓣电影T250的链接:https://movice.douban.com/top250

爬虫的基本流程:

---准备工作---
通过浏览器查看分析目标网页,学习编程基础规范(浏览器推荐谷歌浏览器,按F12可以分析网页)

---获取数据---
用urllib2库获取页面通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常相应,会得到一个response,便是所要获取的页面内容

---解析内容---
得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析

---保存数据---
用xlwt库抽取数据保存形式多样,可以存为文本,也可以保存数据库,或者保存特定格式的文件

 

2.
引入的库及引入方法

零
  • 转载请务必保留本文链接:https://www.0s52.com/bcjc/pythonjc/1331.html
    本社区资源仅供用于学习和交流,请勿用于商业用途
    未经允许不得进行转载/复制/分享

发表评论