scrapy用户超时导致连接失败

时间:2013-09-08 16:54:24

标签: python scrapy

我正在使用scrapy下载图像但出现超时错误:

Retrying <GET http://www/***.jpg> (failed 1 times): User timeout caused connection failure

但是,我可以使用wget 即时下载图像。 DOWNLOAD_TIMEOUT(scrapy参数)设置为默认值180秒,因此这不应该是错误的根本原因。 我尝试过使用代理和非代理的scrapy,两者都给我上面的错误。

1 个答案:

答案 0 :(得分:10)

如果要抓取多个图像(特别是来自多个域),则下载将同时发生,与从命令行下载单个图像相比,每次下载可能需要更长时间。尝试降低CONCURRENT_REQUESTS设置并增加DOWNLOAD_TIMEOUT

使用scrapy fetch URL检查您是否可以检索图像以排除Scrapy问题。

最后,检查请求标头(用户代理,Cookie,引荐来源等)中的差异,这里的一些差异可以解释来自服务器的响应的差异。如果你能找到一个有所作为的标题,那么在Scrapy中很容易改变。