应用错误收集

时间：2015-11-03 22:41:35

标签： python scrapy

我如何使用scrapy进行“预定”爬行？我的意思是，我不希望scrapy连续运行，我希望它运行让我们说1K网址爬行，然后休息并重新启动。

为什么我要问这是出于以下两个原因：

1-如果我有多个爬虫正在运行，我不希望scrapy在虚拟机上施加过多负载。

我是否应该为scrapy占用过多的ram而烦恼？

2-如果scrapy爬行由于某种原因失败，我如何从停止的地方重新开始？它会自动完成吗？或者我是否必须从头重新开始？

第二点我很关心。

答案 0 :(得分：1)

至于内存，只要你没有做一些让对象保持活着（或将所有结果存储在内存中），那么通常内存不是一个大问题。这是所有数据传递和丢弃（有一些例外）。

默认情况下，Scrapy在抓取时不保存其状态，请参阅上面的链接以获取有关此操作的更多详细信息。