过滤不需要的数据抓取

时间:2013-06-05 18:08:12

标签: web-services filter web-crawler

我管理了一些网站,其中一个网站在工作时间早上被蜘蛛骚扰。一般来说,谷歌机器人等将在非高峰时段爬行,但这一点不尊重一般的礼貌。此外,它通过代理传递,所有传入的IP都解析为俄语IP。 (所以我不能简单地联系创作者。)

过滤掉不需要的蜘蛛流量的常用形式是什么?我目前实现的逻辑只是在一定的阈值后停止接受来自同一网站的请求的连接,但我担心这会过滤来自繁忙客户的通缉流量。我也听说有人检查传入的用户并基于此过滤,但对于恶意机器人,他们可以简单地提供新的用户签名,对吗?

它已经取消了我的服务器几次,我不得不暂时更改客户的域名,但这对他们的SEO来说将是毁灭性的。

1 个答案:

答案 0 :(得分:1)

  

我目前实施的逻辑只是在一定的阈值后停止接受来自同一网站的请求的连接,但我担心这会过滤来自繁忙客户的通缉流量。

如果您的阈值是每秒的请求数,那么人们就不那么快了。当然,蜘蛛可以放慢速度以达到阈值。

  

我也听说过有人检查传入的用户并基于此过滤,但对于恶意机器人,他们可以简单地提供新的用户签名,对吗?

右。由于你以某种方式检测到这只蜘蛛,你可以尝试检查一下使用者。

您也可以阻止俄罗斯代理的IP地址,如果这样做不能让有效的客户离开。

祝贺有一个让中国黑客感兴趣的网站,我想。