robots.txt网址格式

时间:2013-01-26 16:22:16

标签: robots.txt

根据this page

  用户代理或不允许行

不支持

globbing和正则表达式

但是,我注意到stackoverflow robots.txt包含*和?等字符。在URL中。是否支持这些?

此外,URL是否包含尾部斜杠,或两者是否等效,会有什么不同吗?

Disallow: /privacy
Disallow: /privacy/

1 个答案:

答案 0 :(得分:10)

你的第二个问题,两者并不相同。 /privacy会屏蔽以/privacy开头的所有内容,包括/privacy_xyzzy之类的内容。另一方面,/privacy/不会阻止它。

原始robots.txt不支持通配符或通配符。但是,很多机器人都可以。几年前,谷歌,微软和雅虎都达成了一项标准。有关详细信息,请参阅http://googlewebmastercentral.blogspot.com/2008/06/improving-on-robots-exclusion-protocol.html

我所知道的大多数主要机器人都支持“标准”。