谷歌搜索结果显示我的网站,即使我已经在robots.txt中禁止它

时间:2013-03-29 19:40:19

标签: seo robots.txt

我的暂存网站显示在搜索结果中,即使我已指定我不希望网站被抓取。以下是暂存网站的robots.txt文件的内容:

User-agent: Mozilla/4.0 (compatible; ISYS Web Spider 9)
Disallow:

User-agent: *
Disallow: /

我在这里做错了吗?

2 个答案:

答案 0 :(得分:3)

您的robots.txt告诉Google不要抓取/索引您网页的内容。

它不会告诉Google不要您的网址添加到搜索结果中。

因此,如果您的网页(被robots.txt屏蔽)链接到其他地方,并且Google找到此链接,则会检查您的robots.txt是否允许抓取。它发现它是被禁止的,但是嘿,它仍然有你的URL。

现在,Google可能会认为在搜索索引中包含此网址会很有用。但由于不允许(根据您的robots.txt)获取网页的元数据/内容,因此他们只会使用您网址本身的关键字对其进行索引,并且可能还有其他人用来链接到您网页的主题/标题文字。

如果您不希望Google将您的网址编入索引,则需要使用meta - robots,例如:

 <meta name="robots" content="noindex">

请参阅Google的文档:Using meta tags to block access to your site

答案 1 :(得分:1)

您的机器人文件看起来很干净,但请记住Google,Yahoo,Bing等等,不需要抓取您的网站以便对其进行索引。

很有可能Open Directory Project或更少礼貌的机器人偶然发现它。这些天,一旦其他人找到您的网站,似乎每个人都可以得到它。让我疯狂。

分段时的一个好的经验法则是:

  1. 在将其发布到您的生产网站上之前,请务必先测试您的漫游器文件中是否存在与语法相关的疏忽。试试robots.txt CheckerAnalyze robots.txtRobots.txt Analysis - Check whether your site can be accessed by Robots
  2. 2.Password在登台时保护您的内容。即使它有些虚假,也要在索引根目录下输入登录名和密码。这对你的粉丝和测试者来说是一个额外的步骤 - 但是如果你想要礼貌 - 或者 - 从你的头发中脱离出来的机器人,这是值得的。

    3.根据项目,您可能不希望使用实际域进行测试。即使我有静态IP - 有时我会使用dnsdynamicnoip.com来托管我的密码保护网站。例如,如果我想要暂存我的域 ihatebots.com :)我将简单地转到dnsdynamic或noip(它们是免费的btw)并创建一个虚假的域名,例如: ihatebots.user32 .com somthingtotallyrandom.user32.com ,然后将我的IP地址分配给它。这种方式即使有人抓取我的暂存项目 - 我原来的域名: ihatebots.com 仍然没有触及任何类型的搜索引擎结果(因此它的记录也是btw)。

    请记住,全世界有数十亿美元的目标是每天24小时找到你,这个数字在不断增加。这些天很艰难。如果您可以在分期时保持创意并始终使用密码保护。

    祝你好运。