我收集统计信息,并且我需要的所有信息都在站点的<head>
(脚本标记)中。
它有大量<body>
(每页大约5-10 kb),所以我可以不解析它以减少服务器负载吗?
如果您建议采用其他优化措施来减轻服务器负载,我会很高兴
CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180 /分钟(有时为200)
答案 0 :(得分:0)
Scrapy仅对整个响应主体起作用。 此行为编码在scrapy core中。
CONCURRENCY_REQUEST = 32
Scrapy没有CONCURRENCY_REQUEST
设置。您是说CONCURRENT_REQUESTS
吗?
DOWNLOAD_DELAY = 0.33
现在的速度为每分钟180(有时为200)
如果未将RANDOMIZE_DOWNLOAD_DELAY
指定为False
(默认值True
)。
下载延迟将是DOWNLOAD_DELAY
设置的random number之间的0.5x到1.5x。