有关星号和正斜杠的Robots.txt的问题

时间:2014-05-08 14:46:06

标签: robots.txt web-crawler

我对robots.txt

的问题很少
  1. 如果我在robots.txt中有以下行

    禁止:/ catalog / category / view / id / 6

    这会阻止网址http://example.com/catalog/category/view/id/61吗?

  2. 如果我有

    禁止:/ *教育

    这会阻止网址http://example.com/some/uri/education以及http://example.com/some/uri/education/another/uri

  3. 在每条规则的最后是否有/会有什么不同?

  4. 如果我想禁止所有以*

  5. 开头的网址,则Disallow: /disallowme*需要http://example.com/disallowme

1 个答案:

答案 0 :(得分:0)

(Q1)

Disallow: /catalog/category/view/id/6

将阻止路径以/catalog/category/view/id/6开头的任何网址。所以是的,它也会阻止http://example.com/catalog/category/view/id/61

(Q3)斜线只是另一个角色,没什么特别的。

(Q2,Q4)*字符在原始robots.txt规范中没有特殊含义,它只是另一个字符,如/a。一些解析器(for example, Google’s)使用*进行模式匹配。你必须检查他们的文档(每个解析器可能会以不同的方式实现它,因为没有关于它的说明)。

因此,遵循原始规范的解析器not会在http://example.com/disallowme后阻止Disallow: /disallowme*。他们会阻止,例如:http://example.com/disallowme*foo。如上所述,您在Disallow中指定的任何内容始终是网址路径前缀