我正在尝试使用Scrapy和Splash(whoscored.com)来抓取网站。我也在使用Crawlera代理。 这是我的脚本和脚本本身gist script
的输出首先,我觉得request:set_header()
工作不正常。由于您可以在输出中看到我的请求标头与我要使用的标头完全不同。
其次,即使使用不同的IP(recaptcha V2),我也可以在第一次请求时获得验证码。如何解决或产生点击?为什么我第一次提出验证码?
我已经尝试过了:
if string.find(response.url, 'incident_id') ~= nil then
print('Capcha', response.body)
while not splash:select('.recaptcha-checkbox') do
splash:wait(1)
print('Wait capcha')
end
local capcha_btn = splash:select('.recaptcha-checkbox')
capcha_btn:mouse_click()
end
谢谢。