如何使用scrapy进行解析时如何最大程度地减少服务器负载?/如何忽略<body>并仅从<head>

时间:2019-06-30 12:58:54

标签: scrapy

我收集统计信息,并且我需要的所有信息都在站点的<head>(脚本标记)中。

它有大量<body>(每页大约5-10 kb),所以我可以不解析它以减少服务器负载吗?

如果您建议采用其他优化措施来减轻服务器负载,我会很高兴

settings.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180 /分钟(有时为200)

1 个答案:

答案 0 :(得分:0)

Scrapy仅对整个响应主体起作用。 此行为编码在scrapy core中。

  

CONCURRENCY_REQUEST = 32

Scrapy没有CONCURRENCY_REQUEST设置。您是说CONCURRENT_REQUESTS吗?

  

DOWNLOAD_DELAY = 0.33现在的速度为每分钟180(有时为200)

如果未将RANDOMIZE_DOWNLOAD_DELAY指定为False(默认值True)。 下载延迟将是DOWNLOAD_DELAY设置的random number之间的0.5x到1.5x。