避免在Google上存档重复内容以获取存档页面?

时间:2011-06-28 13:18:24

标签: ajax seo permalinks duplicate-data

我网站上的每篇博文({3}} - 都会以自己的永久链接网址存档。

在每个存档页面上,我不仅要显示已存档的帖子,还要显示之前发布的10个帖子,这样人们就可以更好地了解博客提供的内容。< / p>

我担心谷歌和其他搜索引擎会认为其他帖子是重复内容,因为每个帖子都会出现在多个页面上。

在我的另一个博客上 - http://www.correlated.org - 我试图通过将早期帖子加载为AJAX调用来解决这个问题,但我想知道是否有更简单的方法。

有没有办法向搜索引擎发出不应该对某个页面的特定部分编制索引的信号?

如果没有,是否有比AJAX调用更简单的方法来做我正在尝试做的事情?

3 个答案:

答案 0 :(得分:5)

警告:这尚未经过大量测试,但应根据我对Google网站管理员中心博客和schema.org文档的阅读情况进行测试。总之...


这似乎是使用microdata构建内容的一个很好的用例。这涉及将您的内容标记为 Rich Snippet 类型的Article,如下所示:

   <div itemscope itemtype="http://schema.org/Article" class="item first">
      <h3 itemprop="name">August 13's correlation</h3>        
      <p itemprop="description" class="stat">In general, 27 percent of people have never had any wisdom teeth extracted. But among those who describe themselves as pessimists, 38 percent haven't had wisdom teeth extracted.</p>
      <p class="info">Based on a survey of 222 people who haven't had wisdom teeth extracted and 576 people in general.</p>
      <p class="social"><a itemprop="url" href="http://www.correlated.org/153">Link to this statistic</a></p>  
   </div>

请注意使用 itemscope itemtype itemprop 来定义页面上的每篇文章。

现在,根据谷歌,雅虎和必应支持的schema.org,搜索引擎应该尊重上面itemprop="url"所描述的规范网址:

  

规范参考

     

通常,使用元素指定链接。例如,   以下HTML链接指向维基百科页面中的Catcher   黑麦。

<div itemscope itemtype="http://schema.org/Book">
  <span itemprop="name">The Catcher in the Rye</span>—
  by <span itemprop="author">J.D. Salinger</a>
  Here is the book's <a itemprop="url"
     

HREF = “http://en.wikipedia.org/wiki/The_Catcher_in_the_Rye” &GT;维基百科   页。       

因此,当以这种方式标记时,Google应该能够正确地归因于哪个内容属于哪个规范URL并相应地在SERP中加权。

完成内容标记后,您可以使用Rich Snippets testing tool对其进行测试,这可以让您在将其投入生产之前很好地了解Google的相关信息。


P.S。为避免重复内容损失,您可以采取的最重要事项是修复永久链接页面上的标题。目前他们都阅读了“相关 - 发现令人惊讶的相关性”,这将导致您的排名受到重创。

答案 1 :(得分:0)

我很害怕,但我认为无法告诉搜索引擎您的网页的特定内容不应被编入索引(例如HTML源代码中的div)。解决这个问题的方法是使用Iframe作为您没有搜索引擎索引的内容,因此我将使用带有适当标记的robot.text文件Disallow拒绝访问链接到Iframe的特定文件。

答案 2 :(得分:0)

您无法告诉Google忽略网页的某些部分,但您可以通过搜索引擎无法找到的方式提供该内容。您可以将该内容放在<iframe>中,也可以通过JavaScript投放。

我不喜欢这两种方法,因为它们是hackish。最好的办法是完全阻止搜索引擎中的这些页面,因为无论如何所有内容都是重复的。你可以通过以下几种方式实现这一目标:

  1. 使用robots.txt屏蔽您的档案。如果您的存档位于其自己的目录中,则可以轻松阻止整个目录。您还可以阻止单个文件并使用通配符来匹配模式。

  2. 使用<META NAME="ROBOTS" CONTENT="noindex">标记阻止每个网页被编入索引。

  3. 使用X-Robots-Tag: noindex HTTP标头阻止搜索引擎将每个页面编入索引。这与使用`标签的效果完全相同,尽管这可以更容易实现,因为您可以在.htaccess文件中使用它并将其应用于整个目录。