这里写了https://en.wikipedia.org/wiki/Tag_soup#HTML5:
HTML5旨在成为标签汤问题的最完整解决方案 到目前为止,同时保持向前和向后兼容 可能。与XHTML形成对比,XHTML背离了它 兼容性并采用解析器应该减少的方法 HTML5承认形成不良的标记,承认形成不良 HTML代码已经大量存在并且可能会存在 继续使用,并采取规范应该的观点 扩展以确保与此类代码的最大兼容性。
因此,HTML 5规范改变了HTML的定义 语法既适应今天使用的常用语法,也适用于 明确地描述了如何"错误形成的代码"应该对待 由解析器。处理格式错误的代码现在占有一席之地 规范本身,希望减少对未来HTML的需求 解析器为其实现额外的,不合规格的度量 处理它无法识别的代码。
我是否理解html5解析器应该正确解析旧的html页面(如html 2.0或html 4)?我需要一个html解析器来解析大多数网页。所以我找到了Google Gumbo:https://github.com/google/gumbo-parser。它在那里写了它的HTML5解析器。那么解析不是html5网页会不适合我呢?
答案 0 :(得分:1)
是的,这是HTML5和XHTML之间的主要区别之一。您应该能够使用HTML5解析器解析任何HTML页面。