我只想将RFPDupeFilter
分配给一只蜘蛛,并计划所有带有scrapyd的蜘蛛,以便只有一只蜘蛛可以过滤已经看到的URL。
我通过扩展scrapy.dupefilters
的RFPDupeFilter类来创建自定义过滤器。
我正在使用scrapy 2.0.0。
此外,我在setting.py
中引用了我的自定义过滤器,
DUPEFILTER_CLASS = 'osint.dupefilter.CustomFilter'
和仅在一个所需蜘蛛网中的引用过滤器:
custom_settings = {
'DUPEFILTER_CLASS': 'osint.dupefilter.CustomFilter',
'FEED_FORMAT': 'jsonlines'
}
在此之后,所有其他蜘蛛也将看到的URL写入request.seen
文件
那不是我想要的行为。
我缺少什么吗,请帮助我。
BR, 汤姆