凭空解决reCAPTCHA

时间:2019-03-06 08:35:01

标签: python selenium scrapy recaptcha

我正在使用scrapy抓取一些网页。但是在某些时候,谷歌的reCAPTCHA阻碍了发展。

如果浏览器(在本例中为Scrapy)没有运行的javascript,则甚至不会加载Google reCAPTCHA。它只是要求您启用JavaScript以查看和解决reCAPTCHA。

所以,我认为,如果我能找到一种在发生时向用户显示此reCAPTCHA的方法,则用户可以手动解决此问题,scrapy仍会继续爬网,但我无法使用真正的javascript来中断此过程。此时我可以使用什么?硒和草皮有可能混合吗?

1 个答案:

答案 0 :(得分:-1)

听起来像是您想自动构建的东西。 Scrapy并不适合这样做,正如您所说,它无法处理javascript。

我建议您尝试硒。它会启动完整的chrome浏览器,并且可以编写脚本。参见https://selenium-python.readthedocs.io/

您可以停止脚本和某些事件(例如reCAPTCHA),然后让用户接管。