我的暂存网站显示在搜索结果中,即使我已指定我不希望网站被抓取。以下是暂存网站的robots.txt文件的内容:
User-agent: Mozilla/4.0 (compatible; ISYS Web Spider 9)
Disallow:
User-agent: *
Disallow: /
我在这里做错了吗?
答案 0 :(得分:3)
您的robots.txt告诉Google不要抓取/索引您网页的内容。
它不会告诉Google不要将您的网址添加到搜索结果中。
因此,如果您的网页(被robots.txt屏蔽)链接到其他地方,并且Google找到此链接,则会检查您的robots.txt是否允许抓取。它发现它是被禁止的,但是嘿,它仍然有你的URL。
现在,Google可能会认为在搜索索引中包含此网址会很有用。但由于不允许(根据您的robots.txt)获取网页的元数据/内容,因此他们只会使用您网址本身的关键字对其进行索引,并且可能还有其他人用来链接到您网页的主题/标题文字。
如果您不希望Google将您的网址编入索引,则需要使用meta
- robots
,例如:
<meta name="robots" content="noindex">
请参阅Google的文档:Using meta tags to block access to your site
答案 1 :(得分:1)
您的机器人文件看起来很干净,但请记住Google,Yahoo,Bing等等,不需要抓取您的网站以便对其进行索引。
很有可能Open Directory Project或更少礼貌的机器人偶然发现它。这些天,一旦其他人找到您的网站,似乎每个人都可以得到它。让我疯狂。
分段时的一个好的经验法则是:
2.Password在登台时保护您的内容。即使它有些虚假,也要在索引根目录下输入登录名和密码。这对你的粉丝和测试者来说是一个额外的步骤 - 但是如果你想要礼貌 - 或者 - 从你的头发中脱离出来的机器人,这是值得的。
3.根据项目,您可能不希望使用实际域进行测试。即使我有静态IP - 有时我会使用dnsdynamic或noip.com来托管我的密码保护网站。例如,如果我想要暂存我的域 ihatebots.com :)我将简单地转到dnsdynamic或noip(它们是免费的btw)并创建一个虚假的域名,例如: ihatebots.user32 .com 或 somthingtotallyrandom.user32.com ,然后将我的IP地址分配给它。这种方式即使有人抓取我的暂存项目 - 我原来的域名: ihatebots.com 仍然没有触及任何类型的搜索引擎结果(因此它的记录也是btw)。
请记住,全世界有数十亿美元的目标是每天24小时找到你,这个数字在不断增加。这些天很艰难。如果您可以在分期时保持创意并始终使用密码保护。
祝你好运。