Question

出于一些神秘的原因，谷歌已将这两个地址编入索引，这些地址会导致同一页：

/something/some-text-1055.html

和

/index.php?pg=something&id=1055

（简短的通知 - 该网站自推出以来一直有友好的网址，我不知道谷歌如何找到“index.php？”网址 - 只有内容管理系统中存在“不友好”的网址，即密码 - 限制）

我该怎么做才能解决问题？（我有大约1000页双重索引。）有人告诉我使用“disallow：index.php？”在robots.txt文件中。对还是错？还有其他建议吗？

Answer 1

谷歌机器人索引网站内容的速度和速度有多快，你会感到惊讶。这与许多CMS系统相结合，创建了非预期的页面/链接，这使得很可能在某些时候暴露出这些链接是最可能的罪魁祸首。你的管理区域也可能不如你想象的那么安全，谷歌机器人就是这样做的。

表现良好，google recommended，这里要做的事情是

至于做好事情是否是“正确”的事情：谷歌排名......谁知道。只有“谷歌”知道他们的算法现在如何运作，并且将来会有效，而谷歌，我的意思是一群工程师和高管在搜索应该如何运作方面存在相互冲突的目标。

Answer 2

Google现在提供了一种指定网页规范网址的方法。您可以在HTML中使用以下代码告诉Google您的规范网址：

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />

您可以在关于此主题的博客文章中详细了解Google上的规范网址：http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html 根据博客文章，Ask.com，微软Live Search和雅虎！都支持规范标签。

Answer 3

如果你使用sitemap generators to submit to search engines，你也会想要禁用它们。它们可能是Google获取链接的地方，包括抓取您的文件夹和检查日志。

Answer 4

更好地检查已请求的URI（$_SERVER['REQUEST_URI']），如果是/index.php则重定向。

Answer 5

更改robots.txt无济于事，因为该页面已经编入索引。

最好是使用永久重定向（301）。

如果你想删除一个被Google编入索引的页面，那么或多或少就是让它返回404未找到的消息。

Answer 6

您是否有可能将表单发布到类似的网址上，谷歌只是从源代码中提取表单？