可以在robots.txt上禁止整个网站删除后会产生什么后果?

时间:2014-04-12 17:46:24

标签: robots.txt

我发布了一个网站,由于误解不依赖于我,我不得不在编制索引之前阻止所有页面。其中一些页面已经在社交网络上链接,因此为了避免糟糕的用户体验,我决定将以下代码插入“robots.txt”

User-agent: *
Disallow: *

我在网站管理员工具上收到了“严重问题”警告,我有点担心。根据您的经验,恢复原始的“robots.txt”是否足够(只要有可能)?如果目前的情况持续很长时间(如果确实如此,我该如何解决),目前的情况会在网站上留下后果(惩罚或类似情况)?如果这个问题听起来有点普遍,我很抱歉,但我找不到具体的答案。提前谢谢。

2 个答案:

答案 0 :(得分:1)

"关键问题"之所以发生,是因为Google无法使用您的robots.txt配置为您网站上的网页编制索引。如果您仍在开发网站,则使用此robots.txt配置是标准过程。网站管理员工具会将您的网站视为正在制作中,但听起来您仍在开发中,因此在这种情况下,这会出现误报错误消息。

拥有此robots.txt配置对搜索引擎排名没有长期负面影响,但搜索引擎能够访问您网站的时间越长,排名就越好。对谷歌来说,3个月的稳定爬行会让它获得某种可信赖的地位。所以它真的取决于域名,以及它之前是否已被谷歌索引以及持续多长时间,但最终仍然没有长期后果,你将不得不等待另外3个月到#34;赚取谷歌的信任"试。

大多数社交网络会在用户共享时读取robots.txt文件,另一方面,搜索引擎的索引编号会有所不同,并且会花费几个小时到几周的时间来检测机器人的变化.txt文件并更新索引。

希望这会有所帮助,如果您能提供有关您情况的更多详细信息,我可以提供更多帮助,但这至少应该回答您的问题。

答案 1 :(得分:1)

  

我的目标(暂时)是阻止所有机器人

您当前的robots.txt 阻止所有机器人。

在原始robots.txt规范中,Disallow: *表示:禁止抓取以*开头的所有网址,例如:

  • http://example.com/*
  • http://example.com/****
  • http://example.com/*p
  • http://example.com/*.html
  • ...

某些解析器不遵循原始规范并将*解释为通配符。对于他们(并且只针对他们),它可能意味着阻止所有URL(其中*表示:"任何字符")。

  

简而言之,我希望网站只能从人而不是机器人访问。

然后你应该使用:

User-agent: *
Disallow: /