我的cPanel AWStats在我的网站上显示了大量的机器人流量。这通常会导致资源超支并导致该站点不可用。
机器人/蜘蛛访客(前25名)报告如下:
未知机器人(由'bot'标识,后跟空格或以下字符之一_ +:,。; /-)
Googlebot
未知的机器人(由“ robot”标识)Googlebot-Image未知的机器人(由“ robots.txt”上的命中标识) PHP脚本未知机器人(由空用户代理字符串标识)
Bing Preview机器人
Google Web预览
未知的机器人(由“机器人”标识,后跟空格或以下字符之一_ +:,。; /-)
未知的机器人(由“抓取”标识)
Netcraft
我是否可以阻止所有机器人,除了:
-Googlebot
-Googlebot图像
-Google Web预览
我特别关注由机器人,机器人或抓取工具等识别的未知机器人。
考虑到大多数恶意机器人并不真正在乎robots.txt,我要求提供.htaccess解决方案。到目前为止,我发现的所有方法都是阻止/将特定的bot列入黑名单的方法,而不是这种阻止所有bot并将其列入白名单的反向方法。
可能会阻止来自用户代理的所有请求,这些用户代理的名称中包含bot或spider或robot或进行抓取,例如Googlebot和Googlebot-Image除外。