简明的方法禁止所有目录的Spidering有例外

时间:2010-11-09 21:17:00

标签: web-crawler robots.txt

是否有编写 robots.txt 文件,禁止索引除指定目录以外的所有内容?

目前 disallow 是唯一有效的方式,这意味着我需要明确指定哪些目录我不会忘记 - 但是我宁愿不向全世界宣布这些目录......

有没有人解决过这个问题?

1 个答案:

答案 0 :(得分:1)

没有一个好的解决方案。正如你所说,你可以拒绝向世界公布事物的一切事物。

  • 如果您没有绑定当前的网址结构,可以考虑创建一个“允许”目录,然后将所需内容符号链接到那里。然后你只需要禁止你的顶级目录。

  • 或者,您可以为bot用户代理构建某种服务器端过滤器。允许robots.txt中的主要版本,然后使用适当的响应代码过滤其访问服务器端,同时阻止所有其他响应代码。这可能比我的其他选项更糟糕,但它保留了您的规范网址。