阻止除Google(或其他列入白名单的机器人)以外的所有机器人

时间:2019-05-05 10:10:56

标签: .htaccess search web-crawler bots

我的cPanel AWStats在我的网站上显示了大量的机器人流量。这通常会导致资源超支并导致该站点不可用。

机器人/蜘蛛访客(前25名)报告如下:

  

未知机器人(由'bot'标识,后跟空格或以下字符之一_ +:,。; /-)
  Googlebot
  未知的机器人(由“ robot”标识)Googlebot-Image未知的机器人(由“ robots.txt”上的命中标识)   PHP脚本未知机器人(由空用户代理字符串标识)
  Bing Preview机器人
  Google Web预览
  未知的机器人(由“机器人”标识,后跟空格或以下字符之一_ +:,。; /-)
  未知的机器人(由“抓取”标识)
  Netcraft

我是否可以阻止所有机器人,除了:
 -Googlebot
 -Googlebot图像
 -Google Web预览

我特别关注由机器人,机器人或抓取工具等识别的未知机器人。

考虑到大多数恶意机器人并不真正在乎robots.txt,我要求提供.htaccess解决方案。到目前为止,我发现的所有方法都是阻止/将特定的bot列入黑名单的方法,而不是这种阻止所有bot并将其列入白名单的反向方法。

可能会阻止来自用户代理的所有请求,这些用户代理的名称中包含bot或spider或robot或进行抓取,例如Googlebot和Googlebot-Image除外。

0 个答案:

没有答案