我正在使用scrapy抓取一些网页。但是在某些时候,谷歌的reCAPTCHA阻碍了发展。
如果浏览器(在本例中为Scrapy)没有运行的javascript,则甚至不会加载Google reCAPTCHA。它只是要求您启用JavaScript以查看和解决reCAPTCHA。
所以,我认为,如果我能找到一种在发生时向用户显示此reCAPTCHA的方法,则用户可以手动解决此问题,scrapy仍会继续爬网,但我无法使用真正的javascript来中断此过程。此时我可以使用什么?硒和草皮有可能混合吗?
答案 0 :(得分:-1)
听起来像是您想自动构建的东西。 Scrapy并不适合这样做,正如您所说,它无法处理javascript。
我建议您尝试硒。它会启动完整的chrome浏览器,并且可以编写脚本。参见https://selenium-python.readthedocs.io/
您可以停止脚本和某些事件(例如reCAPTCHA),然后让用户接管。