当我运行爬行的蜘蛛raise TimeoutError("Getting %s took longer than %s seconds." % (url, timeout))
twisted.internet.error.TimeoutError: User timeout caused connection failure: Getting https://www.exampletest.com/test took longer than 190 seconds..
我设置了以下设置,但没有帮助
'AUTOTHROTTLE_ENABLED':False,
'DOWNLOAD_TIMEOUT':20,
'RETRY_ENABLED': False,
如何控制网站在30秒内没有响应,只是通过或忽略它。
答案 0 :(得分:0)
190
是一个很奇怪的默认设置,所以我继续假设您正在使用scrapy-crawlera。
如果是这种情况,请知道scrapy-crawlera
会忽略DOWNLOAD_DELAY
,因为Crawlera需要更高的超时值,因为通过Crawlera的请求可能需要更长的时间。
如果仍然要减小超时值,请改为更改CRAWLERA_DOWNLOAD_TIMEOUT
。