Question

我在scrapy中使用相同域抓取时使用不同请求之间的相同连接，这可能会减少蜘蛛时的SYN时间。

我尝试过这些设置：

DEFAULT_REQUEST_HEADERS={"connection":"keep-alive"}

KEEP_ALIVE=True

CONCURRENT_REQUESTS_PER_DOMAIN

但他们没有用。

我已经阅读了scrapy中的一些代码并且扭曲了，我注意到使用了getConnect函数来复用一个存在的连接，而scrapy使用这个扭曲的函数来处理连接池，但我现在不知道为什么这些请求没有使用存在的连接。

Answer 1

您可以在标题中设置

headers  = { 'Connection' : 'Keep-Alive' }
request = Request(link, headers=headers)

了解更多信息：