符合html5标准的解析器是否正确处理html 4及更早版本?

时间:2016-12-03 08:30:47

标签: html5 parsing backwards-compatibility html4

这里写了https://en.wikipedia.org/wiki/Tag_soup#HTML5

  

HTML5旨在成为标签汤问题的最完整解决方案   到目前为止,同时保持向前和向后兼容   可能。与XHTML形成对比,XHTML背离了它   兼容性并采用解析器应该减少的方法   HTML5承认形成不良的标记,承认形成不良   HTML代码已经大量存在并且可能会存在   继续使用,并采取规范应该的观点   扩展以确保与此类代码的最大兼容性。

     

因此,HTML 5规范改变了HTML的定义   语法既适应今天使用的常用语法,也适用于   明确地描述了如何"错误形成的代码"应该对待   由解析器。处理格式错误的代码现在占有一席之地   规范本身,希望减少对未来HTML的需求   解析器为其实现额外的,不合规格的度量   处理它无法识别的代码。

我是否理解html5解析器应该正确解析旧的html页面(如html 2.0或html 4)?我需要一个html解析器来解析大多数网页。所以我找到了Google Gumbo:https://github.com/google/gumbo-parser。它在那里写了它的HTML5解析器。那么解析不是html5网页会不适合我呢?

1 个答案:

答案 0 :(得分:1)

是的,这是HTML5和XHTML之间的主要区别之一。您应该能够使用HTML5解析器解析任何HTML页面。