我正在使用sc CrawlSpider
并定义了一个扭曲的反应堆来控制我的爬虫。在测试期间,我抓取了一个收集超过几GB数据的新闻网站。大多数情况下,我对最新的故事很感兴趣,所以我正在寻找一种限制请求页数,字节数或秒数的方法。
是否有一种常用的方法来定义
的限制答案 0 :(得分:17)
在scrapy
中有一个班级scrapy.contrib.closespider.CloseSpider
。
您可以定义变量CLOSESPIDER_TIMEOUT
,CLOSESPIDER_ITEMCOUNT
,CLOSESPIDER_PAGECOUNT
和CLOSESPIDER_ERRORCOUNT
。
当符合条件时,蜘蛛会自动关闭: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider