【python教程】七天爬虫速成版教程（第七天）

零 3月 19, 2021 1K+ 0

七天爬虫速成版的目录

1.环境搭建与第一个python项目

2.If条件判断语句

3.For循环控制语句

4.列表与函数

5.文件操作（文件存储与读取）

6.爬虫准备工作（各类库的安装、讲解）

【python教程】七天爬虫速成版教程（第六天）

7.豆瓣电影资源爬取、保存

教程开始

这是项目的开始与结果

代码稍后会发链接，有兴趣可以下载看看

xls就是爬取的数据，我就爬了一页25部，我就演示一下就不爬那么多了，这个可以自己控制爬多少页，下面会讲
%title插图%num

1.好，我们来看看这个爬虫项目的整体框架

导入的四个资源库

编写的四个函数

还有一个主程序

准备篇的时候有讲库的导入，那时候讲的是resqusts
urllib.resqust也是可以的，这两个库都可以用，选其中一个就行
urllib那个的返回结构比较清晰，这里就用urllib了
%title插图%num

2.个体函数分析

getdata()的作用主要是拼接完整的链接、控制爬取的页数、将多部电影归纳为一个列表来储存
%title插图%num

3.数据获取、清洗、分类、储存

dataextract()函数，目的就是从一团数据里洗出我们需要的数据

这里就需要用到re正则表达式
其实不难，就
制定规则compile()
根据规则查看字符串findall()
完事儿，数据就拿到了

sub()呢就是替换字符串方法，详细看我图片解析吧
%title插图%num

4.获取网页响应返回的数据

header请求头绝大部分爬虫要伪装的东西，目的就是伪装自己，让服务器以为你是电脑浏览器访问的，而不是爬虫访问的

“User-Agent”可以自己去查询自己的，谷歌浏览器F12查，我的就不放出来了，查询方法看图二
%title插图%num

%title插图%num

5.保存数据至xls

具体操作详细也可以看看我前几期的帖子

具体代码意思我也解释上了，看图哦各位
%title插图%num

6.调用各函数

这里可以等同于其它语言的main函数，main函数调用其它子函数

也就几行赋值调用代码，也有解释了，可以看一下?
%title插图%num

好啦，速成版教学就到这里圆满结束了