应用错误收集

如何在没有robots.txt的情况下阻止机器人

时间：2012-05-02 06:45:09

标签： search-engine web-crawler robots.txt

众所周知，robots.txt可帮助我们避免网页抓取工具/漫游器对某些网页/网页进行索引编制。但使用此方法存在一些缺点：1。网络抓取工具可能不会收听robots.txt文件; 2.您正在向所有人公开要保护的文件夹;

还有另一种方法可以阻止您想要保护的文件夹免受抓取工具的攻击吗？请记住，可能希望可以从浏览器访问这些文件夹（例如/ admin）。

1 个答案:

答案 0 :(得分：2)

检查请求的User-Agent标题，如果标题包含机器人的名称，则发出403。这将阻止所有诚实的机器人，但不会阻止不诚实的机器人。但话说回来，如果机器人真的很诚实，它会服从robots.txt。