Robots.txt:仅允许主要SE

时间:2009-03-22 19:30:09

标签: web-crawler robots.txt

有没有办法配置robots.txt,以便网站只接受Google,Yahoo!和MSN蜘蛛?

4 个答案:

答案 0 :(得分:32)

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Slurp
Allow: /
User-Agent: msnbot
Disallow: 

Slurp是雅虎的机器人

答案 1 :(得分:18)

为什么?

任何做恶的人(例如,将电子邮件地址收集到垃圾邮件中)都会忽略robots.txt。因此,您只会阻止合法搜索引擎,因为robots.txt合规性是自愿的。

但是 - 如果你仍然坚持这样做 - 那就是robots.txt中User-Agent:行的用途。

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

当然,您还可以使用所有其他搜索引擎的线路。 Robotstxt.org有部分列表。

答案 2 :(得分:2)

有3个以上的主要搜索引擎,具体取决于您所在的国家/地区。 Facebook似乎在列出合法列表方面做得很好:https://facebook.com/robots.txt

因此您的robots.txt可能类似于:

Object<Object<int>> obj;

答案 3 :(得分:0)

众所周知,robots.txt是爬虫遵守的标准,因此只有表现良好的代理才会这样做。所以,不管它与否都没关系。

如果您有一些数据,也没有在网站上显示,您只需更改权限并提高安全性。