我如何使用scrapy进行“预定”爬行?我的意思是,我不希望scrapy连续运行,我希望它运行让我们说1K网址爬行,然后休息并重新启动。
为什么我要问这是出于以下两个原因:
1-如果我有多个爬虫正在运行,我不希望scrapy在虚拟机上施加过多负载。
我是否应该为scrapy占用过多的ram而烦恼?
2-如果scrapy爬行由于某种原因失败,我如何从停止的地方重新开始?它会自动完成吗?或者我是否必须从头重新开始?
第二点我很关心。
答案 0 :(得分:1)
文档中有一节内容:Jobs: Pausing and Resuming Crawls。
至于内存,只要你没有做一些让对象保持活着(或将所有结果存储在内存中),那么通常内存不是一个大问题。这是所有数据传递和丢弃(有一些例外)。
默认情况下,Scrapy在抓取时不保存其状态,请参阅上面的链接以获取有关此操作的更多详细信息。