Question

有没有办法配置robots.txt，以便网站只接受Google，Yahoo！和MSN蜘蛛？

Answer 1

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Slurp
Allow: /
User-Agent: msnbot
Disallow:

Slurp是雅虎的机器人

Answer 2

为什么？

任何做恶的人（例如，将电子邮件地址收集到垃圾邮件中）都会忽略robots.txt。因此，您只会阻止合法搜索引擎，因为robots.txt合规性是自愿的。

但是 - 如果你仍然坚持这样做 - 那就是robots.txt中User-Agent:行的用途。

User-agent: googlebot
Disallow: 

User-agent: *
Disallow: /

当然，您还可以使用所有其他搜索引擎的线路。 Robotstxt.org有部分列表。

Answer 3

有3个以上的主要搜索引擎，具体取决于您所在的国家/地区。 Facebook似乎在列出合法列表方面做得很好：https://facebook.com/robots.txt

因此您的robots.txt可能类似于：

Object<Object<int>> obj;

Answer 4

众所周知，robots.txt是爬虫遵守的标准，因此只有表现良好的代理才会这样做。所以，不管它与否都没关系。

如果您有一些数据，也没有在网站上显示，您只需更改权限并提高安全性。