Scrapy爬行速度慢(60页/分钟)

时间:2012-11-22 02:45:08

标签: python http scrapy web-crawler

我正在经历scrapy的慢爬行速度(大约1页/秒)。 我正在从aws服务器抓取一个主要网站,所以我不认为它是一个网络问题。 Cpu利用率远不及100,如果我开始多个scrapy进程,爬行速度要快得多。

Scrapy似乎抓了一堆页面,然后挂了几秒钟,然后重复。

我试过玩: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

但这似乎并没有让针头在20左右过去。

1 个答案:

答案 0 :(得分:2)

您确定可以高速抓取目标网站吗?许多网站实施下载阈值,“一段时间后”开始缓慢响应。