我知道Google的搜索算法主要基于pagerank。但是,它还会进行分析并使用文档H1
,H2
,title
和其他HTML标记的结构来增强搜索结果。
“使用文档结构增强搜索结果”这项技术的名称是什么?
是否有任何学术论文可以帮助我学习这个领域?
谷歌正在考虑将HTML结构考虑在内,这一事实在SEO文章中得到了很好的报道,但我在学术论文中找不到它。
答案 0 :(得分:17)
我认为它被称为"Semantic Markup"
[...]语义标记是一种描述性足以让我们和我们编程的机器识别它并做出决策的标记。换句话说,标记意味着我们可以识别它并用它做有用的事情。通过这种方式,语义标记变得不仅仅是描述性的。它成为一种出色的机制,允许人类和机器“理解”相同的信息。 http://www.digital-web.com/articles/writing_semantic_markup/
这里有一篇更实用的文章 http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/
答案 1 :(得分:12)
我的建议?忽略所谓的专家所说的,只需按照Google's guidelines。
您可能正在寻找学术答案,但老实说,这不是一个学术问题,超出了Web索引工作的基础知识。现代页面索引和排序算法的现实要复杂得多。
您可能希望查看较早的works on search engines之一。请注意作者的姓名。您可能还想阅读Google Patent application 20050071741。
除了这些一般原则之外,Google's search algorithm is constantly tweaked基于实际和期望的结果。确切的工作是一个严密保密的秘密,只是为了让人们更难以游戏系统。关于Google搜索算法如何工作的大部分“建议”或描述都是纯粹的假设。
因此,除了拥有一个标题并且格式正确且有效的HTML之外,我认为你不会找到你想要的东西。
答案 2 :(得分:4)
为了使页面对人类有益,你应该使用诸如h1,h2之类的标签来创建分层页面支出...有点像这样......
h1“联系我们” ... h2“联系方式” ...... h3“电话号码” ...... h3“电子邮件地址” ...... h2“如何找到我们” ...... h3“开车” ...... h3“乘火车”
您的问题的难点在于,如果您在h1标签中添加某些内容,希望它会增加您在Google中的排名,但它与您网页上的其他内容不匹配,那么您可能看起来像是垃圾邮件。同样,如果您的网页由太多标题和实际内容组成,您可能看起来像是垃圾邮件。它不像添加h1和h2标签那么简单,你就会上去!这就是为什么你需要为人类而不是机器人编写网站。
答案 3 :(得分:2)
答案 4 :(得分:2)
退房 http://jcmc.indiana.edu/vol12/issue3/pan.html http://www.springerlink.com/content/l22811484243r261/
花在scholar.google.com上的时间可能有助于您找到所需的内容
答案 5 :(得分:2)
您还可以尝试搜索arXiv的“计算机科学”部分:http://arxiv.org以查找“搜索引擎”以及其他人建议的各种术语。
它包含许多学术论文,都是免费提供的...希望其中一些与您的研究相关。 (当然,验证任何论文内容的警告都适用。)
答案 6 :(得分:1)
像克莱图斯说的那样遵循谷歌指南。
我做了一些测试得出结论,标题,图像alt和h标签最重要。另外值得一提的是google adsense。我有这种感觉,如果你实施这些,你的网站的排名增加。
答案 7 :(得分:1)
我相信您感兴趣的内容称为结构指纹识别,它通常用于确定两个结构的相似性。在谷歌的情况下,将权重应用于不同的标签并应用于(可能)使用指纹中不同元素的频率的秘密算法。这在信息理论中有很大的影响 - 如果你正在寻找有关信息理论的学术论文,我将从克劳德·香农的"A Mathematical Theory of Communication"开始
答案 8 :(得分:1)
我还建议查看Microformats和RDF。两者都用于增强搜索。这些主要是搜索引擎不可知的,但也有一些特定的东西。 For google specific guidelines for HTML content read this link
答案 9 :(得分:1)
总之;非常小心。长期:
来自anatomy of a large-scale hypertextual erb search engine:
[...]这给了我们一些限制 短语搜索,只要有 并没有那么多锚点 字。我们希望更新方式 锚点击存储以允许 更高的分辨率和位置 docIDhash字段。 我们使用字体大小 相对于文档的其余部分 因为在搜索时,你没有 想要排名相同 文件不同只是因为一个 的文件更大 字体。 [...]
继续:
[...]另一个很大的区别 网络和传统的良好控制的集合就在那里 几乎无法控制什么 人们可以上网。一对 发布任何东西的灵活性 具有巨大的搜索影响力 引导交通和公司的引擎 故意操纵搜索 利润引擎变得严肃起来 问题。这个问题还没有 在传统封闭中得到解决 信息检索系统。 同时, 值得注意的是 元数据努力基本上失败了 与网络搜索引擎,因为任何 页面上的文字不是直接的 表示给用户的是滥用 操纵搜索引擎。 [...]
Challenges in a web search engine以更现代的方式解决了这些问题:
[...] HTML中的网页落入文档结构连续体的中间,既不接近自由文本也不接近结构良好的数据。 相反,HTML标记提供有限的结构信息,通常用于控制布局,但提供有关语义信息的线索。 HTML中的布局信息似乎效用有限,特别是与可以使用的XML等语言中包含的信息相比标记内容,但实际上它是不可靠的语料库(如网络)中特别有价值的元数据来源。布局信息中的值源于用户可见的事实[。 ..]:
并补充说:
[...]可以分析HTML标签可以推断出哪些语义信息。除了上面提到的标题标记之外,还有一些标记可以控制字体(粗体,斜体),大小和颜色。可以对这些进行分析,以确定作者认为哪些文字特别重要。 HTML或任何与内容显示方式非常接近的标记语言的一个优点是滥用的机会较少:难以以鼓励搜索引擎认为标记文本很重要的方式使用HTML标记虽然对用户而言似乎并不重要。例如,标签的固定含义意味着HI上下文中的任何文本将在呈现的网页上突出显示,因此搜索引擎可以高度权衡此文本。然而,HTML标记的可靠性通过层叠样式表来降低,层叠样式表将标签的名称与其表示分开。已经有人从HTML所具有的结构中提取信息进行研究。例如,[Chakrabarti etal] ,2001; Chakrabarti,2001]创建了一个HTML页面的DOM树,并使用这些信息来提高主题精馏的准确性,这是一种基于链接的分析技术。
现代搜索引擎需要解决许多问题,例如网络垃圾邮件和黑帽SEO方案。
但即使在完美的世界中,例如从索引中消除坏苹果之后,网络仍然完全混乱,因为没有人具有相同的结构。有地图,游戏,视频,照片(flickr)和许多用户生成的内容。换句话说,网络仍然是非常不可预测的。
答案 10 :(得分:1)
让它变得非常简单。使您的信息架构合乎逻辑。如果用标题突出显示用户理解的最重要元素并按逻辑分组,则使用信息处理算法更容易解释文档。神奇的是,用户也可以更容易地进行解释。请记住,搜索引擎算法是由试图解释语言的人编写的。
基本过程是: 写结构良好的HTM L - 使用标头标记来指示页面上最关键的元素。根据您的信息结构使用逻辑标记。列表,主要主题的标题列表。
为任何视觉元素提供相关的alt标记和名称,然后使用简单的css来排列这些元素。
如果该网站适用于用户且包含相关信息,则您不会冒成黑名单垃圾邮件发送者的风险,搜索引擎算法也会有利于您的网页。
我非常喜欢这本书Transcending CSS 有关正确结构化HTML的简洁说明。
答案 11 :(得分:0)
我建议在寻找学术文章时尝试Google scholar作为您的途径之一
答案 12 :(得分:0)
我觉得有趣的是 - 没有meta关键字也没有提供描述 - 在这样的场景中:
<p>Some introduction</p>
<h1>headline 1</h1>
<p>text for section one</p>
搜索结果页面上始终显示“第一部分的文字”。
答案 13 :(得分:0)
现在也可以使用名为CANONICAL的新标签,来自Google,点击HERE