如果已经下载,scrapy会阻止下载文件

时间:2016-05-22 17:04:45

标签: python scrapy

我创建了一个刮刀,它从网站下载所有文件,并使用项目管道将下载链接保存在JSON文件中。如果在JSON文件中找到链接,如何防止刮刀再次下载同一文件。

1 个答案:

答案 0 :(得分:1)

好问题!事实是,你想要做的事情是通过编程方式进行的通用非常复杂(你必须编写自己的中间件或自定义RFPDupeFilter here。但你很幸运。另一种通用的方法来实现什么你想要的只是pausing and resuming crawls已经实施和测试过。