在robots.txt中,只允许在共享主机上抓取子域名NOT子目录?

时间:2012-02-19 20:51:28

标签: seo robots.txt web-crawler xml-sitemap

我刚刚更改了DNS设置,因此文件夹/forum现在是子域而不是子目录。如果我执行robots.txt文件并说:

User-agent: *
Disallow: /forum

是否会禁止抓取子目录和子域?

我想禁止抓取子目录,但允许抓取子域。 注意:这是在共享主机上,因此可以访问子目录和子域。这就是我遇到这个问题的原因。

那么, 我如何只允许对子域进行抓取?

1 个答案:

答案 0 :(得分:0)

如果您想停止抓取,这是正确的方法。但请注意:如果网址已编入索引,则不会删除。

我更喜欢的方法是通过元标记将所有页面设置为“noindex / follow”,或者甚至更好地将“规范标记”设置为将搜索引擎流量发送到子域网址 进入

在指定的网址上,例如“http://www.yourdomain.com/directoryname/post-of-the-day”,请使用

<link rel="canonical" href="http://directoyname.yourdomain.com/post-of-the-day" />

最新的网址将是SERP中唯一的网址