Question

我有一个robots.txt文件设置为

User-agent: *
Disallow: /*

对于所有基于唯一网址的网站。当您保存新的小提琴时，它会像https://jsfiddle.net/一样，为其提供唯一的网址。我希望我的所有唯一网址对Google都不可见。没有索引。

Google已将我的所有唯一网址编入索引，即使它说的是＃34;由于该网站的robots.txt文件，此结果的说明不可用。 - 了解更多＆＃34;

但是这仍然很糟糕，因为所有的URL都在那里，并且可以点击 - 所以里面的所有数据都是可用的。我该怎么办1）摆脱谷歌的这些，2）阻止谷歌索引这些网址。

Answer 1

Robots.txt告诉搜索引擎不要抓取页面，但它不会阻止它们对页面编制索引，特别是如果有来自其他站点的页面链接。如果您的主要目标是保证这些网页永远不会出现在搜索结果中，则应使用robots meta tags代替。带有＆＃39; noindex＆＃39;的机器人元标记。意味着＆＃34;不要将此页面编入索引＆＃34;。在robots.txt中阻止该页面意味着＆＃34;请勿从服务器请求此页面。＆＃34;

添加了漫游器元标记后，您需要将robots.txt文件更改为不再禁止这些页面。否则，robots.txt文件会阻止抓取工具加载页面，这会阻止它看到元标记。在您的情况下，您只需将robots.txt文件更改为：

WeakSubscribe

（或完全删除robots.txt文件）

如果由于某种原因机器人元标记不是一个选项，您也可以使用X-Robots-Tag标头来完成同样的事情。

谷歌仍在索引唯一的网址

1 个答案: