博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python3爬虫系列:理论+实验+爬取妹子图实战
阅读量:5862 次
发布时间:2019-06-19

本文共 4127 字,大约阅读时间需要 13 分钟。

Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star

爬虫系列:

(1) 理论

(2) 实验

(3) 实战

1. 准备环境

1.1 安装CentOS

建议使用VMware安装一台CentOS-7.3虚拟机,请参考:http://www.madmalls.com/blog/post/customize-centos-7-3-autoinstall-iso/

1.2 安装Python3

请参考:http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#3-python3

1.3 安装MongoDB

请参考:http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#4-mongodb ,如果是Windows请参考:http://www.madmalls.com/blog/post/win10-install-mongodb/

尝试使用motor实现MongoDB异步操作,好像效率更差一些,所以放弃使用该模块。目前数据库操作是同步阻塞型,使用pymongo模块

1.4 安装Git

[root@CentOS ~]# yum -y install git

代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-02 ,克隆代码:

[root@CentOS ~]# git clone https://github.com/wangy8961/python3-concurrency-pics-02.git[root@CentOS ~]# cd python3-concurrency-pics-02/

1.5 准备虚拟环境

如果你的操作系统是Linux:

[root@CentOS python3-concurrency-pics-02]# python3 -m venv venv3[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate

Windows激活虚拟环境的命令是: venv3\Scripts\activate

1.6 安装依赖包

如果你的操作系统是Linux:

(venv3) [root@CentOS python3-concurrency-pics-02]# pip install -r requirements-linux.txt

如果你的操作系统是Windows(不会使用uvloop):

(venv3) C:\Users\wangy> pip install -r requirements-win32.txt

2. 分析过程

mzitu step 01 - 04

2.1 获取图集信息

使用requests模块或aiohttp模块来获取入口页面 http://www.mzitu.com/all/ 的HTML响应,然后通过BeautifulSoup4lxml来解析HTML文档。每个图集按年份/月份被放在<div class='all'></div>下面的每个<a href="图集URL">图集标题<a>中。需要注意的是,早期图片需要访问 http://www.mzitu.com/old/ ,递归调用获取图集的函数即可

将获取的4000多个图集信息保存到MongoDB数据库的albums集合中

访问 http://www.mzitu.com/all/ 和 http://www.mzitu.com/old/ ,共2次请求

2.2 获取包含图片的页面信息

每个图集下面的图片数量不相同,我们需要依次访问图集URL,通过分页导航栏获取该图集下最大的图片数和它的发布时间,并在本地磁盘上创建按日期分类的目录,方便以后浏览图片

假设图集URL为 http://www.mzitu.com/56918 ,发现该图集下有47张图片,而且包含图片的页面URL也是有规律的,比如包含第1张图片的页面URL为 http://www.mzitu.com/56918/1

将每个图集下面的包含图片的页面信息保存到MongoDB数据库的image_pages集合中

依次访问图集URL,共4500多次请求

2.3 获取图片的真实URL

我们通过访问每个包含图片的页面,获取每张图片的真实URL,并保存到MongoDB数据库的images集合中

依次访问包含图片的页面URL,共13万多次请求*

2.4 下载图片

从MongoDB数据库的images集合中获取所有图片的真实URL,依次下载并保存到本地

依次访问图片的真实URL,共13万多次请求

3. 使用

3.1 测试

由于图片有13万多张,所以测试的时候,你可以指定只下载100个图集来对比同步下载多线程下载异步下载的效率区别,修改以下三个脚本中的TEST_NUM = 100

建议每次测试完,都删除相关目录:

(venv3) [root@CentOS python3-concurrency-pics-02]# rm -rf downloads/ logs/ __pycache__/

删除数据库记录:

(venv3) [root@CentOS python3-concurrency-pics-02]# mongoMongoDB shell version v3.6.6connecting to: mongodb://127.0.0.1:27017...> show dbsadmin   0.000GBconfig  0.000GBlocal   0.000GBmzitu   0.036GB> use mzituswitched to db mzitu> db.dropDatabase(){ "dropped" : "mzitu", "ok" : 1 }> show dbsadmin   0.000GBconfig  0.000GBlocal   0.000GB>

(1) 依序下载

(venv3) [root@CentOS python3-concurrency-pics-02]# python sequential.py

(2) 多线程下载

(venv3) [root@CentOS python3-concurrency-pics-02]# python threadpool.py

(3) 异步下载

(venv3) [root@CentOS python3-concurrency-pics-02]# python asynchronous.py

3.2 后台运行爬虫脚本

全站下载虽然只有13万多张图片,但章节分析过,总请求数差不多有30万次,所以耗时比较久,为防止不小心关闭Shell客户端而导致SSH断开,将使用screen来将脚本运行为后台任务:

[root@CentOS ~]# yum -y install screen[root@CentOS ~]# screen -dmS spider[root@CentOS ~]# screen -r spider[root@CentOS ~]# cd /root/python3-concurrency-pics-02[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate(venv3) [root@CentOS python3-concurrency-pics-02]# python asynchronous.py

脚本运行的过程中,按Ctrl + A + D即可将任务切换到后台运行,此时再关闭Shell客户端也没影响了。等待大约2小时后:

[root@CentOS ~]# screen -r spider

即可查看下载的结果,如果有失败的请求,很正常,再次执行脚本即可

async mzitu

(venv3) [root@CentOS python3-concurrency-pics-02]# ls -lR downloads/ | grep '^-' | wc -l138217(venv3) [root@CentOS python3-concurrency-pics-02]# du -sh downloads/16G downloads/

3.3 定时任务自动每日更新

[root@CentOS ~]# crontab -e执行上述命令后,将打开vim编辑器,新增如下两行内容:# 爬取 www.mzitu.com 美女图片30 23 * * * /usr/bin/python3 /root/python3-concurrency-pics-02/asynchronous.py

将在每天晚上23:30分自动执行爬虫脚本,查看cron定时任务是否执行:

[root@CentOS ~]# tail -f /var/log/cronAug 27 23:30:01 CentOS CROND[6256]: (root) CMD (/usr/bin/python3 /root/python3-concurrency-pics-02/asynchronous.py)Aug 27 23:30:01 CentOS CROND[6257]: (root) CMD (/usr/lib64/sa/sa1 1 1)

更多cron知识请参考:http://www.madmalls.com/blog/post/how-to-schedule-tasks-in-linux-with-at-and-cron/

转载于:https://www.cnblogs.com/wangy8961/p/9552422.html

你可能感兴趣的文章
原型模式
查看>>
Consumer group理解深入
查看>>
Android笔记之 网络http通信
查看>>
用 Electron 和 React 撸了个功能超全 + 颜值极高的音乐客户端
查看>>
Linux安装Kafka
查看>>
说说极光推送那些事
查看>>
抽象工厂模式 —— Python 描述
查看>>
AVFoundation | 封装一个好用的视频播放器
查看>>
JavaScript怎么使用循环代替(异步)递归
查看>>
Spring Boot系列十八 Spring AOP + 注解实现统一注解
查看>>
TiDB 源码阅读系列文章(二十四)TiDB Binlog 源码解析
查看>>
Android侧滑菜单DrawerLayout使用
查看>>
【爬坑日记】基于vue cli+vuex+axios+iview+sass初始化项目步骤
查看>>
浅谈event loop
查看>>
如何用sysbench做好IO性能测试
查看>>
ButterKnife 原理解析
查看>>
说说Chrome插件从开发调试到打包发布
查看>>
搬运工---工具类(三方库)
查看>>
Android开发 手机开发者模式
查看>>
Paint的用法总结
查看>>