robots.txt文件有哪些规则?

时间:2016-03-09 07:49:42

标签: robots.txt

我正在尝试构建一个robots.txt解析器,并且我想到了一个简单的问题:robots.txt文件有哪些规则?

我开始搜索它,并且在robotstxt.org上我找到了1996年的document,它定义了robots.txt文件的一些规则。本文档明确定义了用户代理允许禁止的所有规则。

寻找robots.txt的一些示例我找到了标签,例如 Sitemap Host

我一直在寻找它,我在维基百科上找到了这个document。解释一些额外的标签。

但我的观点是,既然我对维基百科不太信任并且Web Crawler技术在不断发展,为robots.txt文件创建新规则,我是否可以找到每个规则的地方可以在robots.txt文件中定义吗?

2 个答案:

答案 0 :(得分:1)

你会发现最官方的事情是:http://www.robotstxt.org

但我认为就robots.txt来说,实际工作/实际使用的更为重要 - 而不是某人在某些规范中所写的内容。

一个很好的起点是Googles robots.txt信息页面及其在线检查器:https://support.google.com/webmasters/answer/6062608?rd=1(同样建议http://www.robotstxt.org/checker.html

答案 1 :(得分:1)

http://www.robotstxt.org/orig.html是官方/原始的robots.txt规范.¹

它定义字段User-agentDisallow,并指定clients must ignore unknown fields。这允许其他人创建扩展(例如,Sitemap field defined by the Sitemaps protocol)。

没有注册表(因此存在名称冲突的风险),并且没有标准组织负责收集所有扩展名。

2008年,Google(their announcement),Microsoft²和Yahoo!³(their announcement)聚集在一起并就他们将支持的一系列功能达成一致(请注意,他们为{{引入了保留字符) 1}}值,而在原始规范中,所有字符都将按字面解释。) 但是,这只会记录他们的解释(对于他们的机器人);这不是其他机器人必须遵循的某种规范。但是检查他们的文档(例如,from Bingfrom Google Searchfrom Yandex)可以为您提供想法。

¹http://www.robotstxt.org/norobots-rfc.txt是RFC的初稿,但据我所知,这从未提交/发布。

²他们的公告seems to be 404

³最初,他们的声明似乎是http://www.ysearchblog.com/archives/000587.html,但现在已经是404了。