Question

我最近在我的服务器上遇到了很多CPU峰值，不知何故我认为这不是真正的流量，或者它的某些部分并不真实。所以我想现在只允许谷歌机器人，MSN和雅虎。如果以下robots.txt文件符合我的要求，请指导我。

User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot 
User-agent: Mediapartners-Google*
User-agent: Googlebot-Image 
User-agent: Yahoo-MMCrawler
Disallow: 

User-agent: *
Disallow: /

感谢。

Answer 1

第一个Disallow:应该是：

Allow: /

如果您愿意，实际上允许所有这些用户代理为您的网站编制索引。

Answer 2

您的robots.txt似乎有效。

记录中为allowed to have several User-agent lines。
Disallow:允许抓取所有内容。
以User-agent: *开头的记录仅适用于与之前记录不匹配的机器人。
Disallow: /禁止抓取任何内容。

但是请注意：只有好机器人遵循robots.txt中的规则 - 并且很可能好的机器人不会过度使用常见的抓取频率。所以要么你需要处理你的表现，要么就是不那么好的机器人应该受到责备。

这个Robots.txt文件是否正确？

2 个答案: