Python Scrapy - IP网络掩蔽

时间:2014-01-29 17:03:15

标签: python web-scraping scrapy

我试图搜索example.com,但在抓取100页后,网站被阻止了。

我该如何纠正?

AWS是否有助于避免阻止?

1 个答案:

答案 0 :(得分:5)

请参阅scrapy faq page上的说明:

  

避免被禁止   一些网站采取某些措施来防止机器人抓取它们,具有不同程度的复杂性。绕过这些措施可能既困难又棘手,有时可能需要特殊的基础设施。如有疑问,请考虑联系商业支持。

     

以下是处理这类网站时要记住的一些提示:

     
      
  • 从浏览器中的众所周知的池中轮换您的用户代理(谷歌周围获取它们的列表)
  •   
  • 禁用Cookie(请参阅COOKIES_ENABLED),因为某些网站可能会使用Cookie来发现机器人行为
  •   
  • 使用下载延迟(2或更高)。请参阅DOWNLOAD_DELAY设置。   如果可能,请使用Google缓存来抓取网页,而不是直接点击网站
  •   
  • 使用一组旋转IP。例如,免费的Tor项目或像ProxyMesh这样的付费服务
  •   
  • 使用高度分布的下载器来绕过内部禁令,因此您可以专注于解析干净的页面。这种下载程序的一个例子是Crawlera
  •   
     

如果您仍然无法阻止机器人被禁止,请考虑联系商业支持。