禁用带有通配符的robots.txt中的特定文件夹

时间:2015-05-19 07:15:37

标签: seo search-engine robots.txt google-crawlers

我可以使用通配符隐藏来自抓取工具的特定文件夹,例如:

 User-agent: *
 Disallow: /system/
 Disallow: /v*

我想隐藏所有以“v”字符开头的文件夹。它会这样工作吗?

1 个答案:

答案 0 :(得分:2)

你根本不需要通配符。您的示例将起作用,但如果没有通配符,它​​也可以正常工作。尾随通配符不起作用。

例如,这个:

  sub('(\\w+\\s+){3}', '', input)
  #[1] "NM_000775"    "NM_001014975" "NM_001080484"

表示:"阻止任何以' / x'开头的路径,后跟零个或多个字符。"

而且:

Disallow: /x

表示:"阻止任何以' / x'开头的路径,后跟零个或多个字符,后跟零个或多个字符。"

这是多余的,它会阻止第一个阻止所有相同的事情。唯一的实际区别是第二个版本无法在不支持通配符的爬虫上工作。