我正在寻找有关Google抓取和索引内容的一些文档。我阅读了很多关于你需要做些什么来提高排名并确保你的内容被正确编入索引的“轻”论文和文章,但我正在寻找一些关于Google抓取和索引内容的更高级技术文档。
我想了解的更多信息:
基本上,我试图理解为什么有些页面被索引而不是其他页面,即使格式相似。为什么我在整个域上搜索时只显示了我网站页面的10%,即使我在服务器日志中看到Google抓取了每个链接。
答案 0 :(得分:5)
这两件事的答案都是严密保密的商业秘密,表面上是为了防止游戏系统。
另请注意,Google会over 400 algorithmic changes per year,使得局外人几乎不可能准确无误。如果没有谷歌工作,你可能不会找到一个深入而准确的答案。
然而,网络垃圾邮件团队负责人Matt Cutts经常在his blog和GoogleWebmasterHelp YouTube channel上提供有关Google如何处理内容的最准确见解。值得仔细阅读他的内容,以便更好地了解Google的方法论。
答案 1 :(得分:1)
为了提供一个关于webcrawler如何工作的技术方法,我建议你深入研究一下nutch.apache.org解决方案。
典型的webcrawler显示以下区域:fetcher,解析器,索引器和搜索器。简单地说,网络浏览器可以获取网站上可用的所有网址,并创建每个网站最多可存储101kb的网段。这些页面被解析但是没有存储诸如和或之类的典型单词,但是使用贝叶斯计算来分析其他单词以便进行排名。
搜索引擎索引收集,解析和存储数据,以便快速准确地检索信息。这些任务主要通过存储每个搜索标准的出现列表来执行,通常以使用倒排索引的哈希表或二叉树的形式存储。
正如马克所说,谷歌的计算主要是商业机密,但谷歌发布的专利可能是一个良好的开端。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向链接以及指向您网站的网站对人们偏好的重要性。根据我的经验,重要的是提供一个xml站点地图,说明您网站上的所有网页。在该站点地图上,您可以定义每个页面的爬网频率。 gsitecrawler.com/是一个有趣的可能性。
谷歌网站优化工具将让你有机会看到谷歌在你的网站上找到什么,日志是好的,但可能是机器人发现问题,最好的方法是知道谷歌的网站优化器,以显示错误。
最后,您的大多数问题都是SEO专家所关注的事情,我建议您查看seomoz.com等网站及其工具......您将学习如何在搜索引擎上更好地定位您的网站。
希望它有所帮助!塞巴斯蒂安。
答案 2 :(得分:1)
“是”谷歌喜欢新鲜&独特的内容。 使用Google webmaster guideline“在头标记下的HTML编程中尝试使用 H1 或 H2 元标记。
此标记中也包含丰富网页摘要 ..!
答案 3 :(得分:1)
它非常精确,敏感地扫描您的网页。像你嵌入javascript或在不同文件中的因素,无论你是在设计中使用帧还是使用繁重的图形,都会降低页面的排名。关键词显然是排名影响实体。断开的链接也会使您的网站排名下降。 基本上,您可以参考http://www.tutorialspoint.com/seo/来浏览Google抓取工具的所有重要内容。这将最多需要40分钟。
答案 4 :(得分:0)
答案 5 :(得分:0)
我分析了最新算法并发现现在
Google 更重要 CONTENT 而不是 LINKS 。
因此,如果您的内容足够好,并且有适当的可用标记,那么Google会自动为您生成索引。我建议 H1 - H6 以良好的方式使用。