如何使用scrapy进行解析时如何最大程度地减少服务器负载？/如何忽略<body>并仅从<head>

时间：2019-06-30 12:58:54

标签： scrapy

我收集统计信息，并且我需要的所有信息都在站点的<head>（脚本标记）中。

它有大量<body>（每页大约5-10 kb），所以我可以不解析它以减少服务器负载吗？

如果您建议采用其他优化措施来减轻服务器负载，我会很高兴

settings.py

CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180 /分钟（有时为200）

1 个答案:

答案 0 :(得分：0)

Scrapy仅对整个响应主体起作用。此行为编码在scrapy core中。

CONCURRENCY_REQUEST = 32

Scrapy没有CONCURRENCY_REQUEST设置。您是说CONCURRENT_REQUESTS吗？

DOWNLOAD_DELAY = 0.33现在的速度为每分钟180（有时为200）

如果未将RANDOMIZE_DOWNLOAD_DELAY指定为False（默认值True）。下载延迟将是DOWNLOAD_DELAY设置的random number之间的0.5x到1.5x。