scrapy爬取一定数量页面后停止

总结scrapy异常停止的原因

说实话,我非常不喜欢scrapy这种框架,像一篇博客说的,高不成低不就。但是,scrapy有它的可取之处,不然怎么成为最流行的爬虫框架呢。

scrapy经常遇到的问题是,爬虫刚开始就结束或者爬了一些页面结束,甚至有时候就一直输出日志, 0 pages/min什么的。这种情况一般有下面几种原因:

  1. scrapy等待redis或者redis里没有url可爬了
  2. 去重设置过滤了url
  3. 爬虫逻辑有问题,死循环或者错误循环,或者xpath有问题不能获取下一页url

基本上这三种原因是爬虫异常停止的罪魁祸首。