禁止在robots.txt中使用动态网址

时间:2015-05-23 07:44:10

标签: robots.txt

我们的网址是:

http://example.com/kitchen-knife/collection/maitre-universal-cutting-boards-rana-parsley-chopper-cheese-slicer-vegetables-knife-sharpening-stone-ham-stand-ham-stand-riviera-niza-knives-block-benin.html

我希望禁止在collection之后抓取网址,但在collection之前,会有动态出现的类别。

如何在/collection之后禁止robots.txt中的网址?

1 个答案:

答案 0 :(得分:1)

原始robots.txt规范中无法做到这一点。

但是一些(!)解析器扩展了规范并定义了通配符(通常是*)。

对于这些解析器,您可以使用:

Disallow: /*/collection

*理解为通配符的解析器将停止抓取路径以任何(可能)开头的任何网址,然后{{1} },然后是任何,例如

/collection/

不理解http://example.com/foo/collection/ http://example.com/foo/collection/bar http://example.com/collection/ 为通配符的解析器(即,它们遵循原始规范)将停止抓取路径以*开头的任何网址,例如

/*/collection/