要从爬网程序中阻止的子域与子目录

时间:2013-01-21 06:10:12

标签: seo indexing search-engine web-crawler

我经常谷歌阅读很多文章,但反应不一。

如果我希望阻止我的网站的某个部分被搜索引擎编入索引,我有点困惑哪个是更好的选择。基本上我对我的网站进行了大量更新,并为客户设计,我不希望我为预览上传的所有“测试数据”都被编入索引以避免重复内容问题。

  1. 我应该使用子域并阻止整个子域

  2. 创建一个子目录并使用robots.txt阻止它。

  3. 我是网页设计的新手,并且对于使用子域有点不安全(在某处读取它是一个稍微先进的程序,即使是一个小错误也可能产生重大影响,而且Matt Cutts也提到了类似的东西({ {3}}):

      

    “我建议使用子目录,直到你开始感觉很漂亮   对您网站的架构充满信心。那时,你会   更好地为您自己的网站做出正确的决定。“

    但另一方面,我对使用robots.txt以及任何人都可以访问该文件犹豫不决。

    两者的优点和缺点是什么?

    目前我的印象是Google同样对待这两种情况,最好选择robots.txt的子目录,但在“冒险”之前我想要第二个意见。 / p>

1 个答案:

答案 0 :(得分:1)

要求机器人不要将您的内容编入索引(→robots.txt)锁定所有人(→密码保护)。

对于此决定,您使用单独的子域还是文件夹无关紧要。您可以对两者使用robots.txt或密码保护。请注意,robots.txt始终必须放在文档根目录中。

使用robots.txt不保证,这只是一个礼貌的请求。有礼貌的机器人会尊重它,其他人则不会。人类用户仍然可以访问您的“不允许”页面。即使那些尊重你的robots.txt(例如谷歌)的机器人仍然可以链接到他们搜索中的“不允许”内容(但他们不会将内容编入索引)。

使用登录机制可以保护您的网页免受所有机器人和访客的攻击。