有没有办法配置robots.txt,以便网站只接受Google,Yahoo!和MSN蜘蛛?
答案 0 :(得分:32)
User-agent: * Disallow: / User-agent: Googlebot Allow: / User-agent: Slurp Allow: / User-Agent: msnbot Disallow:
Slurp是雅虎的机器人
答案 1 :(得分:18)
为什么?
任何做恶的人(例如,将电子邮件地址收集到垃圾邮件中)都会忽略robots.txt。因此,您只会阻止合法搜索引擎,因为robots.txt合规性是自愿的。
但是 - 如果你仍然坚持这样做 - 那就是robots.txt中User-Agent:
行的用途。
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
当然,您还可以使用所有其他搜索引擎的线路。 Robotstxt.org有部分列表。
答案 2 :(得分:2)
有3个以上的主要搜索引擎,具体取决于您所在的国家/地区。 Facebook似乎在列出合法列表方面做得很好:https://facebook.com/robots.txt
因此您的robots.txt可能类似于:
Object<Object<int>> obj;
答案 3 :(得分:0)
众所周知,robots.txt是爬虫遵守的标准,因此只有表现良好的代理才会这样做。所以,不管它与否都没关系。
如果您有一些数据,也没有在网站上显示,您只需更改权限并提高安全性。