如何禁止robots.txt中的文件夹,但某些文件除外?

时间:2010-08-22 20:54:13

标签: robots.txt

我有一种情况,我想禁止抓取目录中的某些页面。此目录包含大量文件,但仍有一些文件仍需要编入索引。如果我需要单独禁止每个页面,我会有一个非常大的机器人文件。有没有办法禁止robots.txt中的文件夹除了某些文件?

2 个答案:

答案 0 :(得分:0)

robots.txt格式有一个非标准扩展名,用于指定“允许”规则。不是每个机器人都尊重它,而且有些机器人以不同的方式处理它们。

您可以在这篇维基百科文章中了解更多相关信息:http://en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

答案 1 :(得分:0)

要获得那种细粒度控制,最好在HTML中使用漫游器元标记。假设问题中的文件都是HTML。

<meta name="robots" content="noindex" />

这应放在文档的头部。

我发现这些标签也比robots.txt更容易维护。