Googlebot:指向相同内容的太多不同的网址

时间:2009-06-04 07:54:06

标签: url seo

我们网站的一部分提供了分页随机内容。新用户第一次访问该站点时,会为其分配一个新的随机种子,该种子传入URL,并且持久存储也存储在cookie中。问题是URL中的种子混淆了Googlebot(以及其他索引服务);它抱怨说有太多的URL指向相同的内容。我们可能不会在URL中传递种子,但即使我们只使用cookie,在我看来,在某些时候我们必须决定访问者是索引蜘蛛还是人类为了以非随机方式呈现内容。

我的主要问题是:在这种情况下检测最常见的索引蜘蛛有多糟糕,并以非随机方式为内容提供服务?我知道搜索优化的头号规则是不优化,如果有的话,优化用户并确保每个人的内容相同。但在这种情况下,我们实际上不会改变内容或隐藏任何内容。

有人遇到过同样的问题吗?处理这个问题的最佳做法是什么?

3 个答案:

答案 0 :(得分:1)

这取决于网站结构,但您可能只需编辑 robots.txt 文件即可让机器远离可能令人困惑的网址。还有一个选择是生成 Google Sitemap (当我们说搜索引擎时,我们通常指 Google )。

一些链接:

答案 1 :(得分:1)

  

我的主要问题是:在这种情况下检测最常见的索引蜘蛛有多糟糕,并以非随机方式为其提供内容?

大多数(合法/搜索引擎)机器人正确设置其用户代理,因此很容易做到这样的事情,您只需要检查用户代理HTTP请求字段并做出正确反应......

这个解决方案是否是最好的解决方案,我没有资格辩论。

List of User Agents.

答案 2 :(得分:1)

您正在使用查询参数模拟cookie行为。我虽然这种做法很久以前就结束了。现在最好的做法是为需要会话的用户使用cookie,让其他用户匿名浏览您的网站。

要么您正在运行一个拥有大量偏执用户的网站,这些用户不希望被跟踪,从而关闭了Cookie。他们可能不希望被网址跟​​踪。

如果用户已登录,则必须启用Cookie,没有例外。如果用户未登录,他们可能会查看您的内容,但不会被跟踪。

在您的网址中进行会话的一个问题是,用户现在可以比以前更多地复制和粘贴这些内容,因此即使您检测到搜索引擎,您最终也可能会收到包含此会话信息的链接。

如果您真的想解决问题,添加xml站点地图并且蜘蛛检测可能是可接受的解决方案,但蜘蛛检测需要大量工作才能保持最新。

“为什么我们不包括在Bing中?” - 哦,我忘了添加那个搜索引擎。

“我们为什么不再加入Google了” - 哦,我不知道谷歌有一个新的数据中心。