浏览器如何处理格式错误的HTML?

时间:2011-12-02 16:36:01

标签: html parsing browser

我有一些我试图解析的文档集合。与HTML一样,它们结构合理,语法/语法也很复杂。与HTML一样,许多文档并不完全符合所需的语法。

我的问题是,在解析严格遵循正确语法的文档时,浏览器和HTML / XML解析库使用了哪些一般策略?他们似乎很好地处理了错位或遗失的标签。我确信还有其他情况,例如拼写错误的标签,不正确的属性等,必须处理而不是简单地忽略。

3 个答案:

答案 0 :(得分:3)

格式错误或错误的HTML被称为“标签汤”。浏览器必须处理这个问题,并根据浏览器(IE,Firefox,Chrome等)以不同的方式处理,但这里有一篇关于标签汤和一些一般策略的好文章:

http://en.wikipedia.org/wiki/Tag_soup

答案 1 :(得分:2)

保持简短:

    XML中的
  • 代码中的任何错误都会终止解析过程 - 所谓的" 严酷错误处理"

  • 就像在任何基于XML的文档中一样
  • 在XHTML中 - 错误等于终止

  • HTML中的
  • - 浏览器尝试尽可能多地渲染

答案 2 :(得分:-1)