应用错误收集

如何查看/编辑/避免scrapy中的重复？

时间：2016-12-29 06:54:01

标签： python duplicates scrapy

我只是想知道如何重置dupefilter进程以避免过滤一定数量的url。实际上，我在成功之前多次测试了一个爬虫，现在我想用scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1之类的东西来运行它。它一直告诉我一些网址是重复的，然后没有访问..

从该抓取工具中删除所有网址绝对可以
很高兴知道重复的网址在哪里被过滤（然后我可以编辑？）
我的问题无法使用请求无过滤器，因为它将循环

我可以添加我的代码，但因为它是一个普遍的问题，我觉得它会比任何事情更令人困惑。只要问你是否需要它:)

非常感谢，

1 个答案:

答案 0 :(得分：0)

您可以使用自己的dupefilter类设置scrapies DUPEFILTER_CLASS设置，或者只需使用您的更改扩展默认RFPDupeFilter（source code）类。

此文档pages explains a bit more：

使用scrapy.utils.request.request_fingerprint函数基于请求指纹的默认（RFPDupeFilter）过滤器。

为了更改检查重复项的方式，您可以继承RFPDupeFilter并覆盖其request_fingerprint方法。此方法应接受scrapy Request对象并返回其指纹（字符串）。