为什么Scrapy很慢?

时间:2012-08-14 02:52:58

标签: scrapy

我正在抓取一个网站并解析一些内容+图像,但即使对于100页左右的简单网站,也需要数小时才能完成这项工作。我正在使用以下设置。任何帮助将受到高度赞赏。我已经看到了这个问题 - Scrapy 's Scrapyd too slow with scheduling spiders,但无法收集太多见解。

EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75

1 个答案:

答案 0 :(得分:5)

您确定该网站的回复正常吗?

设置DOWNLOAD_DELAY = 0.75将强制请求是顺序的,并在它们之间添加0.75秒的延迟。如果你删除它,你的抓取肯定会更快,但是,每个域有12个并发请求,请注意你没有过于积极地访问网站。

即使有延迟也不应该花费数小时,所以这就是为什么我想知道网站是否缓慢或无响应。有些网站会对机器人这样做。