通过计算start_url调用来估计Scrapy进度

时间:2015-01-29 18:53:22

标签: python scrapy web-crawler

我试图通过计算调用它的时间start_url来估算蜘蛛的进度,但我不确定如何检测它。

我意识到它远远没有真正衡量当前的进展,因为蜘蛛不知道要抓取的剩余网站有多大。

关于如何获得start_urls的执行次数的任何想法?

1 个答案:

答案 0 :(得分:1)

看起来您可以通过使用信号来实现这一目标。具体来说,item_scraped信号允许您在项目被刮除后注册事件。对于每个收到的响应,检查response.url是否在start_url列表中。

scrapy.signals.item_scraped(item, response, spider)

有关scrapy文档页面的更多信息:http://doc.scrapy.org/en/latest/topics/signals.html