说实话,我非常不喜欢scrapy这种框架,像一篇博客说的,高不成低不就。但是,scrapy有它的可取之处,不然怎么成为最流行的爬虫框架呢。
scrapy经常遇到的问题是,爬虫刚开始就结束或者爬了一些页面结束,甚至有时候就一直输出日志, 0 pages/min什么的。这种情况一般有下面几种原因:
- scrapy等待redis或者redis里没有url可爬了
- 去重设置过滤了url
- 爬虫逻辑有问题,死循环或者错误循环,或者xpath有问题不能获取下一页url
基本上这三种原因是爬虫异常停止的罪魁祸首。