【python教程】七天爬虫速成版教程(第六天)

七天爬虫速成版的目录

1.环境搭建与第一个python项目

2.If条件判断语句

3.For循环控制语句

4.列表与函数

5.文件操作(文件存储与读取)

【python教程】七天爬虫速成版教程(第五天)

6.爬虫准备工作(各类库的安装、讲解)
7.豆瓣电影资源爬取、保存

教程开始:

1.
豆瓣电影T250的链接:https://movice.douban.com/top250

爬虫的基本流程:

—准备工作—
通过浏览器查看分析目标网页,学习编程基础规范(浏览器推荐谷歌浏览器,按F12可以分析网页)

—获取数据—
用urllib2库获取页面通过HTTP库向目标站点发起请求,请求可以包含额外的header等信息,如果服务器能正常相应,会得到一个response,便是所要获取的页面内容

—解析内容—
得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析

—保存数据—
用xlwt库抽取数据保存形式多样,可以存为文本,也可以保存数据库,或者保存特定格式的文件

 

2.
引入的库及引入方法
%title插图%num%title插图%num%title插图%num

标签

发表评论