应用错误收集

使用scrapy时如何避免禁用

时间：2016-10-06 17:31:49

标签： scrapy python-3.5

我经常禁止访问某个网站，我在scrapy中设置了download_delay = 10，我尝试了一个包fake_user_agent然后我尝试实现了tor和polipo，根据这个site配置是可以的。但在再次运行1/2次之后我被禁止了！有人能帮我一下吗？

注意：scrapy-proxie我也想尝试这个，但无法激活。

2 个答案:

答案 0 :(得分：2)

您应该看一下documentation说的内容。

以下是处理这些问题时要记住的一些提示   位点：



从浏览器中的众所周知的池中旋转您的用户代理   （谷歌周围得到他们的清单）



禁用Cookie（请参阅   COOKIES_ENABLED）因为一些网站可能使用cookie来发现机器人行为


使用下载延迟（2或更高）。请参阅DOWNLOAD_DELAY设置。

如果   可能，使用谷歌缓存来获取页面，而不是点击   站点直接使用旋转IP池。例如，免费Tor   项目或付费服务，如ProxyMesh

使用高度分布式   在内部绕过禁令的下载器，所以你可以专注于   解析干净的页面。这种下载程序的一个例子是Crawlera

答案 1 :(得分：0)

使用点击延迟
不是 - 来自一个地址的所有连接 - 糟糕，在多次访问后轮换代理

并查看此帖子 - web scraping etiquette