Question

为了报废网站，我使用scraproxy在2个位置创建了一个由15个代理组成的池。

当请求看起来可疑时，网站将自动重定向（302）到reCapthca页面。

我在scrapy中使用以下设置。我只能以相对较低的速度（5页/分钟）刮掉741页。

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]

任何提示如何避免列入黑名单？似乎增加代理的数量可以解决此问题，但也许还有改进设置的空间。

Answer 1

如果您负担得起，Crawlera可能是最好的选择。

但是，根据保护类型的不同，使用Splash可能就足够了。

正确设置以避免刮擦时阻塞

1 个答案: