资源

Question

我知道Google的搜索算法主要基于pagerank。但是，它还会进行分析并使用文档H1，H2，title和其他HTML标记的结构来增强搜索结果。

“使用文档结构增强搜索结果”这项技术的名称是什么？

是否有任何学术论文可以帮助我学习这个领域？

谷歌正在考虑将HTML结构考虑在内，这一事实在SEO文章中得到了很好的报道，但我在学术论文中找不到它。

Answer 1

[...]语义标记是一种描述性足以让我们和我们编程的机器识别它并做出决策的标记。换句话说，标记意味着我们可以识别它并用它做有用的事情。通过这种方式，语义标记变得不仅仅是描述性的。它成为一种出色的机制，允许人类和机器“理解”相同的信息。 http://www.digital-web.com/articles/writing_semantic_markup/

这里有一篇更实用的文章 http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

Answer 2

搜索引擎优化对某些人来说几乎是一种宗教信仰。坦率地说，我不相信所有这些努力都是合理的。

我的建议？忽略所谓的专家所说的，只需按照Google's guidelines。

您可能正在寻找学术答案，但老实说，这不是一个学术问题，超出了Web索引工作的基础知识。现代页面索引和排序算法的现实要复杂得多。

您可能希望查看较早的works on search engines之一。请注意作者的姓名。您可能还想阅读Google Patent application 20050071741。

除了这些一般原则之外，Google's search algorithm is constantly tweaked基于实际和期望的结果。确切的工作是一个严密保密的秘密，只是为了让人们更难以游戏系统。关于Google搜索算法如何工作的大部分“建议”或描述都是纯粹的假设。

因此，除了拥有一个标题并且格式正确且有效的HTML之外，我认为你不会找到你想要的东西。

Answer 3

谷歌非常故意不会泄漏太多有关其搜索算法的信息，因此您不太可能找到确定答案或学术论文来证实这一点。如果您对SEO的观点感兴趣，只需编写您的页面，这样它们对人类有益，机器人也会喜欢它们。

为了使页面对人类有益，你应该使用诸如h1，h2之类的标签来创建分层页面支出...有点像这样......

h1“联系我们” ... h2“联系方式” ...... h3“电话号码” ...... h3“电子邮件地址” ...... h2“如何找到我们” ...... h3“开车” ...... h3“乘火车”

您的问题的难点在于，如果您在h1标签中添加某些内容，希望它会增加您在Google中的排名，但它与您网页上的其他内容不匹配，那么您可能看起来像是垃圾邮件。同样，如果您的网页由太多标题和实际内容组成，您可能看起来像是垃圾邮件。它不像添加h1和h2标签那么简单，你就会上去！这就是为什么你需要为人类而不是机器人编写网站。

Answer 4

我找到了这篇论文：

A New Study on Using HTML Structures to Improve Retrieval

然而，这是1999年的一篇旧论文，

仍然在寻找更多近期的论文。

Answer 5

退房 http://jcmc.indiana.edu/vol12/issue3/pan.html http://www.springerlink.com/content/l22811484243r261/

花在scholar.google.com上的时间可能有助于您找到所需的内容

Answer 6

您还可以尝试搜索arXiv的“计算机科学”部分：http://arxiv.org以查找“搜索引擎”以及其他人建议的各种术语。

它包含许多学术论文，都是免费提供的...希望其中一些与您的研究相关。（当然，验证任何论文内容的警告都适用。）

Answer 7

像克莱图斯说的那样遵循谷歌指南。

我做了一些测试得出结论，标题，图像alt和h标签最重要。另外值得一提的是google adsense。我有这种感觉，如果你实施这些，你的网站的排名增加。

Answer 8

我相信您感兴趣的内容称为结构指纹识别，它通常用于确定两个结构的相似性。在谷歌的情况下，将权重应用于不同的标签并应用于（可能）使用指纹中不同元素的频率的秘密算法。这在信息理论中有很大的影响 - 如果你正在寻找有关信息理论的学术论文，我将从克劳德·香农的"A Mathematical Theory of Communication"开始

Answer 9

我还建议查看Microformats和RDF。两者都用于增强搜索。这些主要是搜索引擎不可知的，但也有一些特定的东西。 For google specific guidelines for HTML content read this link

Answer 10

总之;非常小心。长期：

来自anatomy of a large-scale hypertextual erb search engine:

[...]这给了我们一些限制短语搜索，只要有并没有那么多锚点字。我们希望更新方式锚点击存储以允许更高的分辨率和位置 docIDhash字段。 我们使用字体大小相对于文档的其余部分因为在搜索时，你没有想要排名相同文件不同只是因为一个的文件更大字体。 [...]

继续：

[...]另一个很大的区别 网络和传统的良好控制的集合就在那里几乎无法控制什么人们可以上网。一对发布任何东西的灵活性具有巨大的搜索影响力引导交通和公司的引擎故意操纵搜索利润引擎变得严肃起来问题。这个问题还没有在传统封闭中得到解决信息检索系统。同时，值得注意的是元数据努力基本上失败了与网络搜索引擎，因为任何页面上的文字不是直接的表示给用户的是滥用操纵搜索引擎。 [...]

Challenges in a web search engine以更现代的方式解决了这些问题：

[...] HTML中的网页落入文档结构连续体的中间，既不接近自由文本也不接近结构良好的数据。 相反，HTML标记提供有限的结构信息，通常用于控制布局，但提供有关语义信息的线索。 HTML中的布局信息似乎效用有限，特别是与可以使用的XML等语言中包含的信息相比标记内容，但实际上它是不可靠的语料库（如网络）中特别有价值的元数据来源。布局信息中的值源于用户可见的事实[。 ..]：

并补充说：

[...]可以分析HTML标签可以推断出哪些语义信息。除了上面提到的标题标记之外，还有一些标记可以控制字体（粗体，斜体），大小和颜色。可以对这些进行分析，以确定作者认为哪些文字特别重要。 HTML或任何与内容显示方式非常接近的标记语言的一个优点是滥用的机会较少：难以以鼓励搜索引擎认为标记文本很重要的方式使用HTML标记虽然对用户而言似乎并不重要。例如，标签的固定含义意味着HI上下文中的任何文本将在呈现的网页上突出显示，因此搜索引擎可以高度权衡此文本。然而，HTML标记的可靠性通过层叠样式表来降低，层叠样式表将标签的名称与其表示分开。已经有人从HTML所具有的结构中提取信息进行研究。例如，[Chakrabarti etal] ，2001; Chakrabarti，2001]创建了一个HTML页面的DOM树，并使用这些信息来提高主题精馏的准确性，这是一种基于链接的分析技术。

现代搜索引擎需要解决许多问题，例如网络垃圾邮件和黑帽SEO方案。

但即使在完美的世界中，例如从索引中消除坏苹果之后，网络仍然完全混乱，因为没有人具有相同的结构。有地图，游戏，视频，照片（flickr）和许多用户生成的内容。换句话说，网络仍然是非常不可预测的。

资源

Answer 11

让它变得非常简单。使您的信息架构合乎逻辑。如果用标题突出显示用户理解的最重要元素并按逻辑分组，则使用信息处理算法更容易解释文档。神奇的是，用户也可以更容易地进行解释。请记住，搜索引擎算法是由试图解释语言的人编写的。

基本过程是：写结构良好的HTM L - 使用标头标记来指示页面上最关键的元素。根据您的信息结构使用逻辑标记。列表，主要主题的标题列表。

为任何视觉元素提供相关的alt标记和名称，然后使用简单的css来排列这些元素。

如果该网站适用于用户且包含相关信息，则您不会冒成黑名单垃圾邮件发送者的风险，搜索引擎算法也会有利于您的网页。

我非常喜欢这本书Transcending CSS 有关正确结构化HTML的简洁说明。

Answer 12

我建议在寻找学术文章时尝试Google scholar作为您的途径之一

semantic search

Answer 13

我觉得有趣的是 - 没有meta关键字也没有提供描述 - 在这样的场景中：

<p>Some introduction</p>
<h1>headline 1</h1>
<p>text for section one</p>

搜索结果页面上始终显示“第一部分的文字”。

Answer 14

现在也可以使用名为CANONICAL的新标签，来自Google，点击HERE

Google如何使用HTML标记来增强搜索引擎？

14 个答案:

资源