应用错误收集

时间：2014-01-17 14:19:58

标签： python python-2.7 scrapy

让我说我正在翻阅数千页。

然后，当我在页面上报废时，我想知道此页面是否已被删除。然后，我决定是否废弃它。

我想知道默认情况下scrapy是否保存已删除的页面。

我将已删除的链接保存在文件中，然后我读取它以了解之前是否已经删除了特定链接。但是，我认为scrapy应该有一个内置功能来做到这一点。

正确？

答案 0 :(得分：0)

scrapy内置了该功能，并会为您过滤这些请求，请参阅scrapy request in the docs

dont_filter （布尔值） - 表示调度程序不应过滤此请求。当您想要多次执行相同的请求时，可以使用此选项来忽略重复过滤器。小心使用它，否则您将进入爬行循环。默认为False。

因此，在创建请求时，您可以决定是否要重新抓取相同的网址。

有关更多实施信息，请参阅代码中的默认RFPDupeFilter

如果您希望将默认值替换为其他重复数据删除逻辑，则会有一个名为DUPEFILTER_CLASS的设置条目