Scrapy抓取历史记录

时间:2015-11-03 22:41:35

标签: python scrapy

我如何使用scrapy进行“预定”爬行?我的意思是,我不希望scrapy连续运行,我希望它运行让我们说1K网址爬行,然后休息并重新启动。

为什么我要问这是出于以下两个原因:

1-如果我有多个爬虫正在运行,我不希望scrapy在虚拟机上施加过多负载。

我是否应该为scrapy占用过多的ram而烦恼?

2-如果scrapy爬行由于某种原因失败,我如何从停止的地方重新开始?它会自动完成吗?或者我是否必须从头重新开始?

第二点我很关心。

1 个答案:

答案 0 :(得分:1)

文档中有一节内容:Jobs: Pausing and Resuming Crawls

至于内存,只要你没有做一些让对象保持活着(或将所有结果存储在内存中),那么通常内存不是一个大问题。这是所有数据传递和丢弃(有一些例外)。

默认情况下,Scrapy在抓取时不保存其状态,请参阅上面的链接以获取有关此操作的更多详细信息。