Question

我的暂存网站显示在搜索结果中，即使我已指定我不希望网站被抓取。以下是暂存网站的robots.txt文件的内容：

User-agent: Mozilla/4.0 (compatible; ISYS Web Spider 9)
Disallow:

User-agent: *
Disallow: /

我在这里做错了吗？

Answer 1

您的robots.txt告诉Google不要抓取/索引您网页的内容。

它不会告诉Google不要将您的网址添加到搜索结果中。

因此，如果您的网页（被robots.txt屏蔽）链接到其他地方，并且Google找到此链接，则会检查您的robots.txt是否允许抓取。它发现它是被禁止的，但是嘿，它仍然有你的URL。

现在，Google可能会认为在搜索索引中包含此网址会很有用。但由于不允许（根据您的robots.txt）获取网页的元数据/内容，因此他们只会使用您网址本身的关键字对其进行索引，并且可能还有其他人用来链接到您网页的主题/标题文字。

如果您不希望Google将您的网址编入索引，则需要使用meta - robots，例如：

 <meta name="robots" content="noindex">

请参阅Google的文档：Using meta tags to block access to your site

Answer 2

您的机器人文件看起来很干净，但请记住Google，Yahoo，Bing等等，不需要抓取您的网站以便对其进行索引。

很有可能Open Directory Project或更少礼貌的机器人偶然发现它。这些天，一旦其他人找到您的网站，似乎每个人都可以得到它。让我疯狂。

分段时的一个好的经验法则是：

在将其发布到您的生产网站上之前，请务必先测试您的漫游器文件中是否存在与语法相关的疏忽。试试robots.txt Checker，Analyze robots.txt或Robots.txt Analysis - Check whether your site can be accessed by Robots。

2.Password在登台时保护您的内容。即使它有些虚假，也要在索引根目录下输入登录名和密码。这对你的粉丝和测试者来说是一个额外的步骤 - 但是如果你想要礼貌 - 或者 - 从你的头发中脱离出来的机器人，这是值得的。

3.根据项目，您可能不希望使用实际域进行测试。即使我有静态IP - 有时我会使用dnsdynamic或noip.com来托管我的密码保护网站。例如，如果我想要暂存我的域 ihatebots.com :)我将简单地转到dnsdynamic或noip（它们是免费的btw）并创建一个虚假的域名，例如： ihatebots.user32 .com 或 somthingtotallyrandom.user32.com ，然后将我的IP地址分配给它。这种方式即使有人抓取我的暂存项目 - 我原来的域名： ihatebots.com 仍然没有触及任何类型的搜索引擎结果（因此它的记录也是btw）。

请记住，全世界有数十亿美元的目标是每天24小时找到你，这个数字在不断增加。这些天很艰难。如果您可以在分期时保持创意并始终使用密码保护。

谷歌搜索结果显示我的网站，即使我已经在robots.txt中禁止它

2 个答案: