正确设置以避免刮擦时阻塞

时间:2019-01-05 10:54:52

标签: web-scraping scrapy scrapy-spider

为了报废网站,我使用scraproxy在2个位置创建了一个由15个代理组成的池。

当请求看起来可疑时,网站将自动重定向(302)到reCapthca页面。

我在scrapy中使用以下设置。我只能以相对较低的速度(5页/分钟)刮掉741页。

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]

任何提示如何避免列入黑名单?似乎增加代理的数量可以解决此问题,但也许还有改进设置的空间。

1 个答案:

答案 0 :(得分:0)

如果您负担得起,Crawlera可能是最好的选择。

但是,根据保护类型的不同,使用Splash可能就足够了。