python scrapy如何知道访问过的链接

时间:2014-01-17 14:19:58

标签: python python-2.7 scrapy

让我说我正在翻阅数千页。

然后,当我在页面上报废时,我想知道此页面是否已被删除。然后,我决定是否废弃它。

我想知道默认情况下scrapy是否保存已删除的页面。

我尝试了什么

我将已删除的链接保存在文件中,然后我读取它以了解之前是否已经删除了特定链接。但是,我认为scrapy应该有一个内置功能来做到这一点。

正确?

1 个答案:

答案 0 :(得分:0)

scrapy内置了该功能,并会为您过滤这些请求,请参阅scrapy request in the docs

  

dont_filter (布尔值) - 表示调度程序不应过滤此请求。当您想要多次执行相同的请求时,可以使用此选项来忽略重复过滤器。小心使用它,否则您将进入爬行循环。默认为False。

因此,在创建请求时,您可以决定是否要重新抓取相同的网址。

有关更多实施信息,请参阅代码中的默认RFPDupeFilter

如果您希望将默认值替换为其他重复数据删除逻辑,则会有一个名为DUPEFILTER_CLASS的设置条目