应用错误收集

robots.txt文件有哪些规则？

时间：2016-03-09 07:49:42

标签： robots.txt

我正在尝试构建一个robots.txt解析器，并且我想到了一个简单的问题：robots.txt文件有哪些规则？

我开始搜索它，并且在robotstxt.org上我找到了1996年的document，它定义了robots.txt文件的一些规则。本文档明确定义了用户代理，允许和禁止的所有规则。

寻找robots.txt的一些示例我找到了标签，例如 Sitemap 和 Host 。

我一直在寻找它，我在维基百科上找到了这个document。解释一些额外的标签。

但我的观点是，既然我对维基百科不太信任并且Web Crawler技术在不断发展，为robots.txt文件创建新规则，我是否可以找到每个规则的地方可以在robots.txt文件中定义吗？

2 个答案:

答案 0 :(得分：1)

你会发现最官方的事情是：http://www.robotstxt.org

但我认为就robots.txt来说，实际工作/实际使用的更为重要 - 而不是某人在某些规范中所写的内容。

一个很好的起点是Googles robots.txt信息页面及其在线检查器：https://support.google.com/webmasters/answer/6062608?rd=1（同样建议http://www.robotstxt.org/checker.html）

答案 1 :(得分：1)

http://www.robotstxt.org/orig.html是官方/原始的robots.txt规范.¹

它定义字段User-agent和Disallow，并指定clients must ignore unknown fields。这允许其他人创建扩展（例如，Sitemap field defined by the Sitemaps protocol）。

没有注册表（因此存在名称冲突的风险），并且没有标准组织负责收集所有扩展名。

2008年，Google（their announcement），Microsoft²和Yahoo！³（their announcement）聚集在一起并就他们将支持的一系列功能达成一致（请注意，他们为{{引入了保留字符） 1}}值，而在原始规范中，所有字符都将按字面解释。）但是，这只会记录他们的解释（对于他们的机器人）;这不是其他机器人必须遵循的某种规范。但是检查他们的文档（例如，from Bing，from Google Search，from Yandex）可以为您提供想法。

¹http://www.robotstxt.org/norobots-rfc.txt是RFC的初稿，但据我所知，这从未提交/发布。

²他们的公告seems to be 404。

³最初，他们的声明似乎是http://www.ysearchblog.com/archives/000587.html，但现在已经是404了。