动态robots.txt

时间:2008-09-04 15:10:22

标签: seo

假设我有一个网站,用于托管针对特定用户群的社区生成内容。现在,让我们说为了培养一个更好的社区,我有一个偏离主题的区域,社区成员可以发布或谈论他们想要的任何内容,无论网站的主题如何。

现在,我希望大部分内容都可以被Google编入索引。值得注意的例外是非主题内容。每个线程都有自己的页面,但所有线程都列在同一个文件夹中,所以我不能只在某个文件夹中排除搜索引擎。它必须是每页。传统的robots.txt文件会变得很庞大,那么我还能做到这一点呢?

8 个答案:

答案 0 :(得分:21)

这适用于所有行为良好的搜索引擎,只需将其添加到<head>

<meta name="robots" content="noindex, nofollow" />

答案 1 :(得分:2)

如果使用Apache,我会使用mod-rewrite将robots.txt别名为可动态生成必要内容的脚本。

编辑:如果使用IIS,您可以使用ISAPIrewrite执行相同操作。

答案 2 :(得分:0)

与@James Marshall的建议相似 - 在ASP.NET中,您可以使用HttpHandler将对robots.txt的调用重定向到生成内容的脚本。

答案 3 :(得分:0)

您可以通过用生成输出的动态脚本替换robots.txt来实现它。 使用Apache你可以制定简单的.htaccess规则来实现它。

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

答案 4 :(得分:0)

仅针对该主题,请确保您的头部包含noindex元标记。这是告诉搜索引擎除了在robots.txt中阻止之外不要抓取你的页面的另一种方法

答案 5 :(得分:0)

请记住,robots.txt禁止不会阻止Google将包含来自外部网站的链接的网页编入索引,它只会阻止内部抓取。请参阅http://www.webmasterworld.com/google/4490125.htmhttp://www.stonetemple.com/articles/interview-matt-cutts.shtml

答案 6 :(得分:-1)

您可以通过限制机器人元标记来禁止搜索引擎读取或索引您的内容。通过这种方式,spider会考虑您的指示,并仅为您想要的页面编制索引。

答案 7 :(得分:-1)

通过robots.txt阻止动态网页使用此代码


用户代理:*

禁止:/ setnewsprefs?

禁止:/ index.html?

禁止:/?

允许:/?hl =

禁止:/?hl = *&amp;