我在codeplex上发布了一个源代码,我惊讶地发现它在13个小时内出现在谷歌上。此外,当我在codeplex上对我的帐户进行一些更改时,这些更改会在几分钟内反映在Google上。那是怎么发生的 ?是否有一些额外的重要性,谷歌支付给像Codeplex,Stackoverflow等网站,以使他们的结果快速出现在搜索结果中?是否有一些特殊的步骤可以让谷歌抓取我的网站更快,如果不是这么快。
答案 0 :(得分:7)
答案 1 :(得分:7)
Google比其他网站更喜欢某些网站。涉及很多魔术规则,在CodePlex和Stackoverflow的情况下,我们甚至可以假设他们已经手动加入了一些白名单。然后谷歌订阅这些网站的RSS源,并在有新的RSS帖子时抓取它们。
示例:我的博客上的帖子会在几分钟内包含在索引中,但如果我不发帖数周,那么Google每周都会过去一次。
答案 2 :(得分:5)
可能(并且你必须要知道内部人员......)如果他们发现从抓取到抓取的足够变化,他们会在爬行之间缩小窗口,直到每隔几分钟就会抓取热门博客/新闻等网站。 / p>
答案 3 :(得分:3)
对于像stackoverflow.com这样的热门网站,索引的发生频率高于正常情况,您可以通过搜索刚问过的问题来注意这一点。
答案 4 :(得分:3)
虽然不是众所周知,但是Google relies on pigeons to rank its pages.有些网页上有特别美味的玉米,比其他页面更频繁地吸引鸽子的注意力。
答案 5 :(得分:0)
实际上......热门网站有一些他们分享的饲料谷歌。当Feed更改时,该网站会更新这些Feed并google更新其索引。对于排名很好的其他网站,如果有变化,搜索引擎会更频繁地抓取。确实,它不是公共知识,甚至对于热门网站也无法保证新发布的数据何时出现在索引中。
答案 6 :(得分:0)
Real time search是搜索引擎战争中最新的流行语和战场之一。谷歌宣布的/ Bing's twitter整合就是这种对新鲜内容的新关注的好例子。
对于谷歌这样的公司来说,加入新鲜内容是一项真正的技术挑战和priority,因为必须抓取文档,将它们合并到索引中(分布在数百/数千台计算机上),然后以某种方式确定如果新内容与给定查询相关。请记住,因为我们正在索引全新的文档和推文,这些东西不会有很多入站链接,这是提升PageRank的典型因素。
让Google / Yahoo / Bing更频繁地抓取您网站的最佳方式是让网站拥有经常更新的内容,以获得相当数量的流量。 (所有这些公司都知道热门网站的流行程度,并将投入更多资源索引网站,如stackoverflow,nytimes和亚马逊)
您可以做的另一件事是确保您的robots.txt不会阻止蜘蛛抓取您想要的网站,并确保提交sitemap到google / bing-hoo这样他们就会有你的网址列表。但要小心你的意愿:http://blog.stackoverflow.com/2009/06/the-perfect-web-spider-storm/
答案 7 :(得分:0)
即使我自己的博客实时出现(虽然它是第3页),所以我认为这不是什么大问题。)
例如我刚刚发布了这个并且它至少在37分钟前出现在Google上(可能它是实时的,因为我之前没有检查过) http://www.google.com/search?q=rebol+cgi+hosting