我有一些我试图解析的文档集合。与HTML一样,它们结构合理,语法/语法也很复杂。与HTML一样,许多文档并不完全符合所需的语法。
我的问题是,在解析严格遵循正确语法的文档时,浏览器和HTML / XML解析库使用了哪些一般策略?他们似乎很好地处理了错位或遗失的标签。我确信还有其他情况,例如拼写错误的标签,不正确的属性等,必须处理而不是简单地忽略。
答案 0 :(得分:3)
格式错误或错误的HTML被称为“标签汤”。浏览器必须处理这个问题,并根据浏览器(IE,Firefox,Chrome等)以不同的方式处理,但这里有一篇关于标签汤和一些一般策略的好文章:
答案 1 :(得分:2)
保持简短:
代码中的任何错误都会终止解析过程 - 所谓的" 严酷错误处理"
在XHTML中 - 错误等于终止
- 浏览器尝试尽可能多地渲染
答案 2 :(得分:-1)