为了报废网站,我使用scraproxy在2个位置创建了一个由15个代理组成的池。
当请求看起来可疑时,网站将自动重定向(302)到reCapthca页面。
我在scrapy中使用以下设置。我只能以相对较低的速度(5页/分钟)刮掉741页。
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]
任何提示如何避免列入黑名单?似乎增加代理的数量可以解决此问题,但也许还有改进设置的空间。