我只是想知道如何重置dupefilter进程以避免过滤一定数量的url。
实际上,我在成功之前多次测试了一个爬虫,现在我想用scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1
之类的东西来运行它。
它一直告诉我一些网址是重复的,然后没有访问..
我可以添加我的代码,但因为它是一个普遍的问题,我觉得它会比任何事情更令人困惑。只要问你是否需要它:)
非常感谢,
答案 0 :(得分:0)
您可以使用自己的dupefilter类设置scrapies DUPEFILTER_CLASS
设置,或者只需使用您的更改扩展默认RFPDupeFilter
(source code)类。
使用scrapy.utils.request.request_fingerprint函数基于请求指纹的默认(RFPDupeFilter)过滤器。
为了更改检查重复项的方式,您可以继承RFPDupeFilter并覆盖其request_fingerprint方法。此方法应接受scrapy Request对象并返回其指纹(字符串)。