我试图搜索example.com,但在抓取100页后,网站被阻止了。
我该如何纠正?
AWS是否有助于避免阻止?
答案 0 :(得分:5)
请参阅scrapy faq page上的说明:
避免被禁止 一些网站采取某些措施来防止机器人抓取它们,具有不同程度的复杂性。绕过这些措施可能既困难又棘手,有时可能需要特殊的基础设施。如有疑问,请考虑联系商业支持。
以下是处理这类网站时要记住的一些提示:
- 从浏览器中的众所周知的池中轮换您的用户代理(谷歌周围获取它们的列表)
- 禁用Cookie(请参阅COOKIES_ENABLED),因为某些网站可能会使用Cookie来发现机器人行为
- 使用下载延迟(2或更高)。请参阅DOWNLOAD_DELAY设置。 如果可能,请使用Google缓存来抓取网页,而不是直接点击网站
- 使用一组旋转IP。例如,免费的Tor项目或像ProxyMesh这样的付费服务
- 使用高度分布的下载器来绕过内部禁令,因此您可以专注于解析干净的页面。这种下载程序的一个例子是Crawlera
如果您仍然无法阻止机器人被禁止,请考虑联系商业支持。