我有一种情况,我想禁止抓取目录中的某些页面。此目录包含大量文件,但仍有一些文件仍需要编入索引。如果我需要单独禁止每个页面,我会有一个非常大的机器人文件。有没有办法禁止robots.txt中的文件夹除了某些文件?
答案 0 :(得分:0)
robots.txt格式有一个非标准扩展名,用于指定“允许”规则。不是每个机器人都尊重它,而且有些机器人以不同的方式处理它们。
您可以在这篇维基百科文章中了解更多相关信息:http://en.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive
答案 1 :(得分:0)
要获得那种细粒度控制,最好在HTML中使用漫游器元标记。假设问题中的文件都是HTML。
<meta name="robots" content="noindex" />
这应放在文档的头部。
我发现这些标签也比robots.txt更容易维护。