我经常禁止访问某个网站,我在scrapy中设置了download_delay = 10,我尝试了一个包fake_user_agent然后我尝试实现了tor和polipo,根据这个site配置是可以的。但在再次运行1/2次之后我被禁止了!有人能帮我一下吗 ?
注意:scrapy-proxie我也想尝试这个,但无法激活。
答案 0 :(得分:2)
您应该看一下documentation说的内容。
以下是处理这些问题时要记住的一些提示 位点:
从浏览器中的众所周知的池中旋转您的用户代理 (谷歌周围得到他们的清单)
禁用Cookie(请参阅 COOKIES_ENABLED)因为一些网站可能使用cookie来发现机器人行为
- 使用下载延迟(2或更高)。请参阅DOWNLOAD_DELAY设置。
- 如果 可能,使用谷歌缓存来获取页面,而不是点击 站点直接使用旋转IP池。例如,免费Tor 项目或付费服务,如ProxyMesh
- 使用高度分布式 在内部绕过禁令的下载器,所以你可以专注于 解析干净的页面。这种下载程序的一个例子是Crawlera
答案 1 :(得分:0)
并查看此帖子 - web scraping etiquette