如何仅将RFPDupeFilter分配给一个蜘蛛

时间:2020-04-02 11:05:24

标签: url filter scrapy scrapyd

我只想将RFPDupeFilter分配给一只蜘蛛,并计划所有带有scrapyd的蜘蛛,以便只有一只蜘蛛可以过滤已经看到的URL。 我通过扩展scrapy.dupefilters的RFPDupeFilter类来创建自定义过滤器。

我正在使用scrapy 2.0.0。

此外,我在setting.py中引用了我的自定义过滤器,

DUPEFILTER_CLASS = 'osint.dupefilter.CustomFilter'

和仅在一个所需蜘蛛网中的引用过滤器:

    custom_settings = {
    'DUPEFILTER_CLASS': 'osint.dupefilter.CustomFilter',
    'FEED_FORMAT': 'jsonlines'
    }

在此之后,所有其他蜘蛛也将看到的URL写入request.seen文件 那不是我想要的行为。

我缺少什么吗,请帮助我。

BR, 汤姆

0 个答案:

没有答案
相关问题