Question

当我运行爬行的蜘蛛raise TimeoutError("Getting %s took longer than %s seconds." % (url, timeout)) twisted.internet.error.TimeoutError: User timeout caused connection failure: Getting https://www.exampletest.com/test took longer than 190 seconds..

时，我会不断得到它

我设置了以下设置，但没有帮助

'AUTOTHROTTLE_ENABLED':False,
'DOWNLOAD_TIMEOUT':20,
'RETRY_ENABLED': False,

如何控制网站在30秒内没有响应，只是通过或忽略它。

Answer 1

190是一个很奇怪的默认设置，所以我继续假设您正在使用scrapy-crawlera。

如果是这种情况，请知道scrapy-crawlera会忽略DOWNLOAD_DELAY，因为Crawlera需要更高的超时值，因为通过Crawlera的请求可能需要更长的时间。

如果仍然要减小超时值，请改为更改CRAWLERA_DOWNLOAD_TIMEOUT。

刮擦超时无法控制扭曲超时

1 个答案: