Robots.txt和子文件夹

时间:2015-11-26 03:42:56

标签: seo robots.txt

将多个域配置为我的主要主机帐户(共享主机)的附加组件。

目录结构如下所示(主域名为example.com):

  • public_html(example.com)
  • _sub
    • ex1 - >显示为example-realtor.com
    • ex2 - >显示为example-author.com
    • ex3 - >显示为example-blogger.com

(使用example作为域的SO要求使解释更加困难 - 例如,sub ex1可能指向plutorealty而ex2可能指向amazon,或者其他一些业务子托管我重点是每个ex#都是一个不同公司的网站,因此在每个“例子”中精神上替代正常和不同的东西。

因为这些域(ex1,ex2等)是附加域,所以它们可以通过两种方式访问​​(理想情况下,第二种方法只有我知道)

(1)http://example1.com
(2)http://example.com/_sub/ex1/index.php

同样,example1.com是来自example.com的完全不相关的网站/域名

问题:

(a)该网站将如何在搜索引擎上编入索引? (1)和(2)都会出现在搜索结果中吗? 方法2显示在谷歌

是不可取的

(b)我应该在public_html中放置一个不允许_sub文件夹中每个文件夹的robots.txt吗?例如:

 User-agent: *
 Disallow: /_sub/
 Disallow: /_sub/ex1/
 Disallow: /_sub/ex2/
 Disallow: /_sub/ex3/

(c)是否有更常用的配置附加域的方法?

2 个答案:

答案 0 :(得分:2)

这个robots.txt就足够了,您不必列出/_sub/之后的任何内容:

User-agent: *
Disallow: /_sub/

这会禁止机器人(尊重robots.txt)抓取路径以/_sub/开头的任何网址。但这并不一定会阻止这些机器人为您的网址编制索引(例如,将其列在搜索结果中)。

理想情况下,您会使用HTTP status code 301http://example.com/_sub/ex1/重定向到http://example1.com/。这取决于您的服务器如何工作(对于Apache,您可以使用.htaccess)。然后,每个人都会在您网站的规范网址上结束。

答案 1 :(得分:0)

不要在Google上使用多站点功能。 Google排名对主域名的影响也是如此。如果黑帽和垃圾邮件生成子目录站点。

我的建议如果您需要Sub Categories上的重要网站,请将所有子域无索引。

  

的robot.txt

User-agent: *
 Disallow: /_sub/
 Disallow: /_sub/ex1/
 Disallow: /_sub/ex2/
 Disallow: /_sub/ex3/