【python教程】七天爬虫速成版教程（第六天）

2021 年 3 月 15 日14:16:35Python教程评论226字数 469阅读1分33秒阅读模式2021 年 3 月 15 日

七天爬虫速成版的目录

1.环境搭建与第一个python项目文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

2.If条件判断语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

3.For循环控制语句文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

4.列表与函数文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

5.文件操作（文件存储与读取）文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

【python教程】七天爬虫速成版教程（第五天）文章源自灵鲨社区-https://www.0s52.com/bcjc/pythonjc/1331.html

6.爬虫准备工作（各类库的安装、讲解）
7.豆瓣电影资源爬取、保存

教程开始：

1.
豆瓣电影T250的链接：https://movice.douban.com/top250

爬虫的基本流程：

---准备工作---
通过浏览器查看分析目标网页，学习编程基础规范（浏览器推荐谷歌浏览器，按F12可以分析网页）

---获取数据---
用urllib2库获取页面通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常相应，会得到一个response，便是所要获取的页面内容

---解析内容---
得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析

---保存数据---
用xlwt库抽取数据保存形式多样，可以存为文本，也可以保存数据库，或者保存特定格式的文件

2.
引入的库及引入方法

3 月

Python进阶技巧二三事（七）：字符串、python版本控制