使用scrapy时如何避免禁用

时间:2016-10-06 17:31:49

标签: scrapy python-3.5

我经常禁止访问某个网站,我在scrapy中设置了download_delay = 10,我尝试了一个包fake_user_agent然后我尝试实现了tor和polipo,根据这个site配置是可以的。但在再次运行1/2次之后我被禁止了!有人能帮我一下吗 ?

注意:scrapy-proxie我也想尝试这个,但无法激活。

2 个答案:

答案 0 :(得分:2)

您应该看一下documentation说的内容。

  

以下是处理这些问题时要记住的一些提示   位点:

     
      
  • 从浏览器中的众所周知的池中旋转您的用户代理   (谷歌周围得到他们的清单)

  •   
  • 禁用Cookie(请参阅   COOKIES_ENABLED)因为一些网站可能使用cookie来发现机器人行为

  •   
  • 使用下载延迟(2或更高)。请参阅DOWNLOAD_DELAY设置。
  •   
  • 如果   可能,使用谷歌缓存来获取页面,而不是点击   站点直接使用旋转IP池。例如,免费Tor   项目或付费服务,如ProxyMesh
  •   
  • 使用高度分布式   在内部绕过禁令的下载器,所以你可以专注于   解析干净的页面。这种下载程序的一个例子是Crawlera
  •   

答案 1 :(得分:0)

  1. 使用点击延迟
  2. 不是 - 来自一个地址的所有连接 - 糟糕,在多次访问后轮换代理
  3. 并查看此帖子 - web scraping etiquette