Question

robots.txt中的这两行是否会成功阻止谷歌使用类似于以下内容的网址编制索引页面：http://www.domain-name.com/ product-tag / ...

User-agent: *
Disallow: /product-tag/
Disallow: /product-tag/*

由于我有谷歌索引这些页面的问题，我无法找到另一种方法来阻止它。

在搜索引擎中看到robots.txt中的更改需要多长时间？

Answer 1

Robots.txt将阻止Google抓取您的网站。不一定是索引它。特别是如果已经将其编入索引，则不会删除它。

您应该在页面上的HEAD HTML中添加meta noindex标记，然后允许Google重新抓取该网页以查看此内容（即使用robots.txt执行 NOT 阻止）。所有网页退出Google后（可能需要一些时间），如果您愿意，可以使用robots.txt阻止它。

robots.txt的主要原因和好处是阻止Google浪费时间查看这些页面。每个网站都会分配一个抓取预算，因此Google每天只会重新索引一定数量的网页。所以，如果它浪费了很多的爬行您不希望编入索引的网页上的预算，然后它不会将您执行的网页保持为最新版本。

此外，您不应该依赖robots.txt来隐藏敏感文件，因为一些抓取工具（尽管不是Google）可能会忽略它。

最后，如果您的产品已经编入索引，并且这些是重复的网页，以及您不希望它们被编入索引的原因，那么您可以在HEAD代码中使用rel canonical link指向真实的页面而不是noindex。