应用错误收集

时间：2011-12-02 16:36:01

标签： html parsing browser

我有一些我试图解析的文档集合。与HTML一样，它们结构合理，语法/语法也很复杂。与HTML一样，许多文档并不完全符合所需的语法。

我的问题是，在解析严格遵循正确语法的文档时，浏览器和HTML / XML解析库使用了哪些一般策略？他们似乎很好地处理了错位或遗失的标签。我确信还有其他情况，例如拼写错误的标签，不正确的属性等，必须处理而不是简单地忽略。

答案 0 :(得分：3)

格式错误或错误的HTML被称为“标签汤”。浏览器必须处理这个问题，并根据浏览器（IE，Firefox，Chrome等）以不同的方式处理，但这里有一篇关于标签汤和一些一般策略的好文章：

答案 1 :(得分：2)

保持简短：

答案 2 :(得分：-1)

看哪：