如何在robots.txt中使用通配符?

时间:2013-12-24 20:18:43

标签: robots.txt

我见过很多类似的问题,但并不完全正确。

在我的robots.txt中,我想做类似的事情:

禁止:/home/[anything]/[anything]/personal/

允许访问/homehome/xxx/home/xxx/yyy/

其中*可以是任何介入目录。上面的例子是我尝试过的,有很多变化,似乎没什么用。

*/personal

/home*/personal

几乎每个排列。

这可以通过机器人中有限的通配符完成吗?如果是这样 - 怎么样?

robots.txt上有很多信息,其中很多都有冲突!]

2 个答案:

答案 0 :(得分:0)

Google抓取工具了解robots.txt中的模式,但请记住并非所有机器人都(或者甚至根本不会关注robots.txt)。例如:

Disallow: /*foo.html$

会禁止任何foo.html文件。

查看Robots.txt specification以获取更多信息。他们还有一个test tool来验证您的规则是否正常运行。

答案 1 :(得分:0)

Google网站管理员工具提供了一个很好的工具来尝试robots.txt指令(至少谷歌机器人会解释它们)。您可以在网站管理员工具内的机器人文件中添加一行,并添加您想要确保被阻止的网址,点击测试按钮,它会告诉您是否被阻止或允许以及是否被阻止,哪个指令(行号)做到了。请参见附件截图。 (啊booo到stackoverflow - 它不允许我添加截图,因为我没有任何'声誉')。