我想以这种格式抓取一个包含网址的网站:
这是代码:
[VehicleProtocol]
抓取器在一分钟后停止,它只返回最近的内容! 任何解决方案?
答案 0 :(得分:0)
Scrapy已将您的一些请求定义为重复链接,因此将其丢弃。
'dupefilter/filtered': 21126,
您可以在' settings.py'中添加下一行。 scrapy项目文件夹中的文件:
DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'
它将完全禁用过滤(对于整个项目),但现在您需要自己检测并过滤重复的请求。