Scrapy:限制请求或请求字节数

时间:2013-10-03 13:32:06

标签: python scrapy

我正在使用sc CrawlSpider并定义了一个扭曲的反应堆来控制我的爬虫。在测试期间,我抓取了一个收集超过几GB数据的新闻网站。大多数情况下,我对最新的故事很感兴趣,所以我正在寻找一种限制请求页数,字节数或秒数的方法。

是否有一种常用的方法来定义

的限制
  • request_bytes
  • request_counts
  • 以秒为单位的运行时间?

1 个答案:

答案 0 :(得分:17)

scrapy中有一个班级scrapy.contrib.closespider.CloseSpider。 您可以定义变量CLOSESPIDER_TIMEOUTCLOSESPIDER_ITEMCOUNTCLOSESPIDER_PAGECOUNTCLOSESPIDER_ERRORCOUNT

当符合条件时,蜘蛛会自动关闭: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider