让我说我正在翻阅数千页。
然后,当我在页面上报废时,我想知道此页面是否已被删除。然后,我决定是否废弃它。
我想知道默认情况下scrapy是否保存已删除的页面。
我将已删除的链接保存在文件中,然后我读取它以了解之前是否已经删除了特定链接。但是,我认为scrapy应该有一个内置功能来做到这一点。
正确?
答案 0 :(得分:0)
scrapy内置了该功能,并会为您过滤这些请求,请参阅scrapy request in the docs
dont_filter (布尔值) - 表示调度程序不应过滤此请求。当您想要多次执行相同的请求时,可以使用此选项来忽略重复过滤器。小心使用它,否则您将进入爬行循环。默认为False。
因此,在创建请求时,您可以决定是否要重新抓取相同的网址。
有关更多实施信息,请参阅代码中的默认RFPDupeFilter
如果您希望将默认值替换为其他重复数据删除逻辑,则会有一个名为DUPEFILTER_CLASS的设置条目