我见过很多类似的问题,但并不完全正确。
在我的robots.txt中,我想做类似的事情:
禁止:/home/[anything]/[anything]/personal/
允许访问/home
,home/xxx
,/home/xxx/yyy/
等
其中*
可以是任何介入目录。上面的例子是我尝试过的,有很多变化,似乎没什么用。
*/personal
/home*/personal
几乎每个排列。
这可以通过机器人中有限的通配符完成吗?如果是这样 - 怎么样?
robots.txt上有很多信息,其中很多都有冲突!]
答案 0 :(得分:0)
Google抓取工具了解robots.txt
中的模式,但请记住并非所有机器人都(或者甚至根本不会关注robots.txt)。例如:
Disallow: /*foo.html$
会禁止任何foo.html
文件。
查看Robots.txt specification以获取更多信息。他们还有一个test tool来验证您的规则是否正常运行。
答案 1 :(得分:0)
Google网站管理员工具提供了一个很好的工具来尝试robots.txt指令(至少谷歌机器人会解释它们)。您可以在网站管理员工具内的机器人文件中添加一行,并添加您想要确保被阻止的网址,点击测试按钮,它会告诉您是否被阻止或允许以及是否被阻止,哪个指令(行号)做到了。请参见附件截图。 (啊booo到stackoverflow - 它不允许我添加截图,因为我没有任何'声誉')。