我有一种情况,我需要禁止在所有具有相同模式的特定页面上进行爬网,例如:
/folder1/folder2/folder3/review
/folder1/folder2/folder3/
作为列表的位置,添加/review
将是我想要禁止抓取的内容。
添加到robots.txt
的这一行是否有效并阻止在评论页面上而不是列表或其他内容?
Disallow: /folder1/*/*/review
由于
答案 0 :(得分:0)
双*是多余的。 一个简单的
/ folder1 / * / review
甚至
/ * /评论
会做的。
如果您尝试声明必须是“评论”网址之前的3个文件夹长路径,而不是我认为您可以做到这一点,那就是robots.txt。至少没有通配符,beacuse *可以表示任何字符串和任意数量的文件夹。
尝试在htaccess中使用RegEx。