【python教程】七天爬虫速成版教程(第七天)

七天爬虫速成版的目录

1.环境搭建与第一个python项目

2.If条件判断语句

3.For循环控制语句

4.列表与函数

5.文件操作(文件存储与读取)

6.爬虫准备工作(各类库的安装、讲解)

【python教程】七天爬虫速成版教程(第六天)

7.豆瓣电影资源爬取、保存

 

教程开始

这是项目的开始与结果

代码稍后会发链接,有兴趣可以下载看看

xls就是爬取的数据,我就爬了一页25部,我就演示一下就不爬那么多了,这个可以自己控制爬多少页,下面会讲
%title插图%num%title插图%num

 

 

1.好,我们来看看这个爬虫项目的整体框架

导入的四个资源库

编写的四个函数

还有一个主程序

准备篇的时候有讲库的导入,那时候讲的是resqusts
urllib.resqust也是可以的,这两个库都可以用,选其中一个就行
urllib那个的返回结构比较清晰,这里就用urllib了
%title插图%num%title插图%num

 

 

2.个体函数分析

getdata()的作用主要是拼接完整的链接、控制爬取的页数、将多部电影归纳为一个列表来储存
%title插图%num

 

 

3.数据获取、清洗、分类、储存

dataextract()函数,目的就是从一团数据里洗出我们需要的数据

这里就需要用到re正则表达式
其实不难,就
制定规则compile()
根据规则查看字符串findall()
完事儿,数据就拿到了

sub()呢就是替换字符串方法,详细看我图片解析吧
%title插图%num%title插图%num%title插图%num%title插图%num

 

 

4.获取网页响应返回的数据

header请求头绝大部分爬虫要伪装的东西,目的就是伪装自己,让服务器以为你是电脑浏览器访问的,而不是爬虫访问的

“User-Agent”可以自己去查询自己的,谷歌浏览器F12查,我的就不放出来了,查询方法看图二
%title插图%num

%title插图%num

 

 

5.保存数据至xls

具体操作详细也可以看看我前几期的帖子

具体代码意思我也解释上了,看图哦各位
%title插图%num

 

 

6.调用各函数

这里可以等同于其它语言的main函数,main函数调用其它子函数

也就几行赋值调用代码,也有解释了,可以看一下?
%title插图%num

 

 

好啦,速成版教学就到这里圆满结束了

标签

发表评论