网页禁止在robots.txt中使用,但被Google索引。怎么可能?

时间:2019-07-03 05:54:30

标签: google-search robots.txt

我的网站在Google Search Console中面临覆盖问题。查看Google在GSC中的以下消息:

  

已被索引,但被robots.txt阻止

我不允许我在robots.txt中使用我的帐户页面(https://www.joujou.com.au/account/),但该页面已被Google索引。如果robots.txt文件中已禁止该页面在Google中建立索引,那么该页面是否可以索引?

1 个答案:

答案 0 :(得分:0)

Robots.txt只是阻止Googlebot查看页面内容。但是,即使有人链接到您的页面,即使Google没有看到内容,Google也知道该目标URL上有一个网页。

如果有足够的人链接到该页面,则Google可能决定添加该页面并将其显示在索引中。 Google经常会从与其链接的内容和链接的锚文本中收集该网页的上下文。

如果您确实不希望URL出现在Google索引中,则有两种建议的方法。

  1. 使用NOINDEX命令向页面添加robots meta tag注意:,您必须允许Google抓取其URL才能看到NOINDEX命令。因此,您必须在robots.txt文件中撤消disallow命令
  2. 将HTTP基本身份验证添加到页面

这两种方法都会确保Google不会将URL添加到索引中。但是,Google仍会不时抓取该URL。

有关更多信息,Google代表John Mueller最近表示了此on Twitter

  

... robots.txt肯定会阻止内容的抓取(如果   不允许),但不一定要为网址建立索引。 [但是,]没有   内容,很难排名