在robots.txt中不允许使用通配符之间的长网址

时间:2012-10-07 09:23:07

标签: wildcard robots.txt

我有一种情况,我需要禁止在所有具有相同模式的特定页面上进行爬网,例如:

/folder1/folder2/folder3/review

/folder1/folder2/folder3/作为列表的位置,添加/review将是我想要禁止抓取的内容。

添加到robots.txt的这一行是否有效并阻止在评论页面上而不是列表或其他内容?

Disallow: /folder1/*/*/review

由于

1 个答案:

答案 0 :(得分:0)

双*是多余的。 一个简单的

  

/ folder1 / * / review

甚至

  

/ * /评论

会做的。

如果您尝试声明必须是“评论”网址之前的3个文件夹长路径,而不是我认为您可以做到这一点,那就是robots.txt。至少没有通配符,beacuse *可以表示任何字符串和任意数量的文件夹。

尝试在htaccess中使用RegEx。