防止搜索引擎机器人抓取所有子域

时间:2013-02-08 17:27:23

标签: wordpress apache .htaccess robots.txt

我有一个像 domaindev.com 这样的域名。

我已在此域中设置robots.txt文件以阻止所有内容:

User-agent: *
Disallow: /

就像那样。因此,阻止所有内容被抓取。

现在这里有趣的地方。我们还在我们的服务器上托管了几个subdomains.domaindev.com,我想阻止所有这些子域被抓取。我想要一种简单的方法来阻止任何旧的子域和任何新的子域。我可以在 www.domaindev.com 中添加一行,以阻止domaindev.com下的任何子域吗?

是制作默认robots.txt的最佳方法,只需手动将其放入所有子域文件夹中。

我真的想要一个明确的解决方案,以免不断地做同样的事情。

我们使用WordPress,在wp-admin中我们将其设置为不让蜘蛛抓取我们的网站。但不知何故,这些网站正在寻找进入谷歌的方式。

我该如何解决?

我搜索了该网站,发现此行要添加到我的.htaccess文件中:

Header set X-Robots-Tag "noindex, nofollow"

我也会这样做。

我还看到每个子域都需要自己的robots.txt文件是标准的一部分。

1 个答案:

答案 0 :(得分:0)

在任何VirtualHost部分之外的httpd.conf文件中放置Alias指令以捕获任何“robots.txt”请求。

Alias /robots.txt /home/www/robots.txt