robots.txt:如何处理不良线路

时间:2016-04-29 09:55:16

标签: robots.txt

当Disallow行包含多个URI时会发生什么?例如:

Disallow: / tmp/

我错误地引入了空格。

网络浏览器如何处理这个问题的标准方法是什么?他们是否忽略整行,或者只是忽略第二个URI并将其视为:

Disallow: /

1 个答案:

答案 0 :(得分:1)

至少谷歌似乎将第一个非空格字符视为路径的开头,将最后一个非空格字符视为结尾。中间的任何东西都被视为路径的一部分,即使它是一个空间。 Google还默默地对路径中的某些字符进行百分比编码,包括空格。

以下内容:

Disallow: / tmp/

会阻止:

http://example.com/%20tmp/

阻止:

http://example.com/tmp/

我已经在Google的robots.txt测试中验证了这一点。 YMMV适用于Google以外的抓取工具。