我正在尝试构建一个robots.txt解析器,并且我想到了一个简单的问题:robots.txt文件有哪些规则?
我开始搜索它,并且在robotstxt.org上我找到了1996年的document,它定义了robots.txt文件的一些规则。本文档明确定义了用户代理,允许和禁止的所有规则。
寻找robots.txt的一些示例我找到了标签,例如 Sitemap 和 Host 。
我一直在寻找它,我在维基百科上找到了这个document。解释一些额外的标签。
但我的观点是,既然我对维基百科不太信任并且Web Crawler技术在不断发展,为robots.txt文件创建新规则,我是否可以找到每个规则的地方可以在robots.txt文件中定义吗?
答案 0 :(得分:1)
你会发现最官方的事情是:http://www.robotstxt.org
但我认为就robots.txt来说,实际工作/实际使用的更为重要 - 而不是某人在某些规范中所写的内容。
一个很好的起点是Googles robots.txt信息页面及其在线检查器:https://support.google.com/webmasters/answer/6062608?rd=1(同样建议http://www.robotstxt.org/checker.html)
答案 1 :(得分:1)
http://www.robotstxt.org/orig.html是官方/原始的robots.txt规范.¹
它定义字段User-agent
和Disallow
,并指定clients must ignore unknown fields。这允许其他人创建扩展(例如,Sitemap
field defined by the Sitemaps protocol)。
没有注册表(因此存在名称冲突的风险),并且没有标准组织负责收集所有扩展名。
2008年,Google(their announcement),Microsoft²和Yahoo!³(their announcement)聚集在一起并就他们将支持的一系列功能达成一致(请注意,他们为{{引入了保留字符) 1}}值,而在原始规范中,所有字符都将按字面解释。) 但是,这只会记录他们的解释(对于他们的机器人);这不是其他机器人必须遵循的某种规范。但是检查他们的文档(例如,from Bing,from Google Search,from Yandex)可以为您提供想法。
¹http://www.robotstxt.org/norobots-rfc.txt是RFC的初稿,但据我所知,这从未提交/发布。
²他们的公告seems to be 404。
³最初,他们的声明似乎是http://www.ysearchblog.com/archives/000587.html,但现在已经是404了。