链接在一起> 100K页面而不会让SEO受到惩罚

时间:2012-05-07 17:23:17

标签: seo web web-crawler

我正在制作一个网站,该网站将对互联网上数十万个其他网站的隐私政策进行审核。它的初始内容基于我通过CommonCrawl 50亿页面网页转储和analyzing all the privacy policies运行脚本,以识别某些特征(例如“销售您的个人信息”)。

根据SEO MOZ Beginner's Guide to SEO

  

搜索引擎往往只会在任何给定页面上抓取大约100个链接。   这种宽松的限制对于减少垃圾邮件和保存是必要的   排名。

我想知道什么是创建导航网络的智能方法,不会留下任何页面孤儿,但仍然可以避免他们所说的SEO惩罚。我有一些想法:

  • 创建按字母顺序排列的网页(或Google Sitemap .xml),例如“以Ado *开头的网站”。例如,它会链接“Adobe.com”。这个,或任何其他无意义的页面分割,似乎有点人为,我想知道谷歌是否可能不喜欢它。
  • 使用元关键字或说明进行分类
  • 找到一些方法来应用更有趣的类别,例如地理或基于内容。我担心的是,我不确定如何将这些类别全面应用到这么多网站。我想如果需要,我可以编写另一个分类器来尝试分析爬网页面的内容。虽然听起来像个大工作。
  • 使用DMOZ项目帮助对页面进行分类。

维基百科和StackOverflow显然通过允许用户对所有页面进行分类或标记来很好地解决了这个问题。在我的情况下,我没有那么奢侈,但我想找到最好的选择。

这个问题的核心是Google如何响应不同的导航结构。是否会以程序化/无意义的方式惩罚那些创建网页的人?或者只要一切都通过链接连接,它不关心吗?

1 个答案:

答案 0 :(得分:3)

Google PageRank不会因为页面上有> 100个链接而惩罚您。但是,高于某个阈值的每个链接在PageRank算法中的值/重要性都会降低。

引用SEOMOZ和Matt Cutts:

  

你会受到惩罚吗?

     

在我们深入挖掘之前,我想说清楚100链接   限制从来就不是一种惩罚的情况。在2007年8月的一次采访中,   兰德引用Matt Cutts的话说:

     
    

“保持链接数量低于100”是技术性的     指南部分,而不是质量指南部分。这意味着     如果您有101或102个链接,我们不会删除页面     页。将此视为经验法则。

  
     

当时,很可能   谷歌在某一点之后开始忽略链接,但最糟糕的是   这使得那些100后的链接不再通过PageRank。页面本身   不会被取消索引或处罚。

所以问题是如何让Google认真对待您的所有链接。您可以通过为Google进行爬网生成XML站点地图来实现此目的(您可以拥有静态sitemap.xml文件,也可以动态生成其内容)。您需要阅读Google网站站长工具帮助文档的About Sitemaps部分。

就像在页面上有太多链接一样是一个问题,在XML站点地图文件中包含太多链接也是一个问题。您需要做的是对XML站点地图进行分页。 Jeff Atwood谈论StackOverflow如何实现这一点:The Importance of Sitemaps。杰夫还在StackOverflow podcast #24上讨论了同样的问题。

此外,此概念也适用于Bing