如何查看/编辑/避免scrapy中的重复?

时间:2016-12-29 06:54:01

标签: python duplicates scrapy

我只是想知道如何重置dupefilter进程以避免过滤一定数量的url。 实际上,我在成功之前多次测试了一个爬虫,现在我想用scrapy crawl quotes -o test_new.csv -s JOBDIR=crawls/quotes_new-1 之类的东西来运行它。 它一直告诉我一些网址是重复的,然后没有访问..

  • 从该抓取工具中删除所有网址绝对可以
  • 很高兴知道重复的网址在哪里被过滤(然后我可以编辑?)
  • 我的问题无法使用请求无过滤器,因为它将循环

我可以添加我的代码,但因为它是一个普遍的问题,我觉得它会比任何事情更令人困惑。只要问你是否需要它:)

非常感谢,

1 个答案:

答案 0 :(得分:0)

您可以使用自己的dupefilter类设置scrapies DUPEFILTER_CLASS设置,或者只需使用您的更改扩展默认RFPDupeFiltersource code)类。

此文档pages explains a bit more

  

使用scrapy.utils.request.request_fingerprint函数基于请求指纹的默认(RFPDupeFilter)过滤器。

     

为了更改检查重复项的方式,您可以继承RFPDupeFilter并覆盖其request_fingerprint方法。此方法应接受scrapy Request对象并返回其指纹(字符串)。