Question

我有一种情况，我想禁止抓取目录中的某些页面。此目录包含大量文件，但仍有一些文件仍需要编入索引。如果我需要单独禁止每个页面，我会有一个非常大的机器人文件。有没有办法禁止robots.txt中的文件夹除了某些文件？

Answer 1

robots.txt格式有一个非标准扩展名，用于指定“允许”规则。不是每个机器人都尊重它，而且有些机器人以不同的方式处理它们。

Answer 2

要获得那种细粒度控制，最好在HTML中使用漫游器元标记。假设问题中的文件都是HTML。

<meta name="robots" content="noindex" />

这应放在文档的头部。

我发现这些标签也比robots.txt更容易维护。