我正在尝试使用python中的Scrapy框架来抓取一个网站。但是我得到了验证码。服务器使用Distil netwrok bot检测实现bot检测。无论如何我可以解决它吗?
答案 0 :(得分:0)
我个人将其淹没在代理中。 1个代理可以阻止4个请求,然后更改代理。我有成千上万的免费代理,所以这不是一个大问题。但这不是很快,所以我将并发设置为1k左右。
答案 1 :(得分:-3)
您可以使用Selenium等工具来克服它。它是一个Web测试框架,可自动加载Web浏览器以模仿普通用户。页面加载后,您可以使用Scrapy或Bs4等工具抓取内容。继续加载下一页,然后刮。它比普通的刮刀慢,但它可以完成工作并通过像Incapsula这样的大多数探测器。
希望有所帮助。