显示在爬网程序后统计信息中筛选的重复请求数

时间:2014-09-22 01:33:11

标签: python scrapy

其中一只Scrapy蜘蛛(版本0.21)我正在运行的并不是要拉掉我想要刮去的所有物品。

统计显示有283项被拉,但我预计这里远远超过300。我怀疑网站上的一些链接是重复的,因为日志显示了第一个重复的请求,但我想确切地知道有多少副本被过滤,所以我有更确凿的证据。优选地,在爬行结束时以附加属性的形式。

我知道Scrapy的最新版本已经做到了这一点,但我现在仍然坚持使用0.21,我看不出有任何方法可以用我所拥有的功能复制该功能。当重复的URL被过滤时,似乎没有发出信号,并且DUPEFILTER_DEBUG似乎也不起作用。

关于如何获得我需要的任何想法?

1 个答案:

答案 0 :(得分:0)

您可以维护已经抓取的网址列表,只要您遇到列表中已有的网址,您就可以记录并增加计数器。