网络刮板可以绕过良好的油门保护吗?

时间:2011-02-01 21:47:41

标签: security http web-scraping

假设数据源设置了严格的基于IP的限制。如果节流开始在下载1%的数据时拒绝他们的请求,网络刮刀是否有任何方法可以下载数据?

我能想到的黑客使用的唯一技术是某种代理系统。但是,似乎代理(即使速度快)最终都会达到节流。

更新:以下有些人提到过像Yahoo Pipes和Tor这样的大型代理网络,但这些IP范围或已知的退出节点是否也不会被列入黑名单?

7 个答案:

答案 0 :(得分:7)

可以为FREE编制数千或者poxies的列表。可以为便士租用IPv6地址。地狱,攻击者可以以每小时2-7美分的价格启动Amazon EC2微型实例。

您想阻止别人抓取您的网站吗?互联网不会那样工作,希望它永远不会。

(我已经看到IRC服务器在客户端上进行端口扫描以查看以下端口是否打开:8080,3128,1080。但是有代理服务器使用不同的端口,并且还有合法的理由来运行代理服务器或让这些端口打开,就像你运行Apache Tomcat一样。你可以通过使用YAPH查看客户端是否正在运行代理服务器来提升它。实际上你也会使用攻击者来对付它们;)< / p>

答案 1 :(得分:2)

使用Tor的人会每隔几分钟跳一次IP地址。我曾经运行过这个问题的网站,并且只要检测到过多的刮擦就会阻塞已知Tor出口节点的IP地址。如果您可以找到定期更新的Tor出口节点列表,则可以实现此目的,例如https://www.dan.me.uk/tornodes

答案 2 :(得分:1)

您可以使用P2P抓取网络来完成此任务。将会有很多IP可用,如果其中一个被限制就没有问题。此外,您可以使用某些代理配置组合大量客户端实例,如之前的答案所示。

我认为你可以使用P2P开源网络YaCy

答案 3 :(得分:1)

想要获取信息的刮刀将获取信息。超时,更改代理名称,代理,当然还有EC2 / RackSpace或任何其他能够使用新IP地址启动和停止服务器的云服务。

答案 4 :(得分:0)

我听说有人使用Yahoo Pipes来做这些事情,主要是使用雅虎作为代理来提取数据。

答案 5 :(得分:0)

也许尝试在亚马逊ec2实例上运行你的刮刀。每次受到限制时,启动一个新实例(在新IP上),并杀死旧实例。

答案 6 :(得分:0)

这取决于攻击者获取数据的时间。如果大多数数据都是静态的,那么攻击者可能会在50天内运行他的刮刀。如果他在DSL线路上,他可以每天两次请求一个“新的”IP地址,1%的限制不会对他造成太大伤害。

当然,如果您需要更快的数据(因为它已经过时),有更好的方法(使用EC2实例,如果公众对收集的数据感兴趣,建立BOINC项目等)。 / p>

或者有一个金字塔计划“让10个人来运行我的爬行器并且你得到了PORN,或者让100个人抓住它并且你得到很多东西”,因为这在几年前很常见于填充网站。由于涉及的竞争(谁获得最多推荐),您可能很快就会以很少的资金运行您的抓取工具。