我们的网址是:
http://example.com/kitchen-knife/collection/maitre-universal-cutting-boards-rana-parsley-chopper-cheese-slicer-vegetables-knife-sharpening-stone-ham-stand-ham-stand-riviera-niza-knives-block-benin.html
我希望禁止在collection
之后抓取网址,但在collection
之前,会有动态出现的类别。
如何在/collection
之后禁止robots.txt中的网址?
答案 0 :(得分:1)
原始robots.txt规范中无法做到这一点。
但是一些(!)解析器扩展了规范并定义了通配符(通常是*
)。
对于这些解析器,您可以使用:
Disallow: /*/collection
将*
理解为通配符的解析器将停止抓取路径以任何(可能无)开头的任何网址,然后{{1} },然后是任何,例如
/collection/
不理解http://example.com/foo/collection/
http://example.com/foo/collection/bar
http://example.com/collection/
为通配符的解析器(即,它们遵循原始规范)将停止抓取路径以*
开头的任何网址,例如
/*/collection/