使用正则表达式解析HTML / XML标记

时间:2012-11-05 22:53:59

标签: xml regex xml-parsing

  

可能重复:
  RegEx match open tags except XHTML self-contained tags

为什么使用正则表达式进行HTML / XML解析不是一个好主意?

2 个答案:

答案 0 :(得分:2)

因为这些语言不规律。它们不符合正则表达式的预期用途。使用XPath进行XML解析会更好。

答案 1 :(得分:0)

好的,得到它:HTML / XML是Chomsky Type 2语法,而正则表达式是Chomsky Type 3语法,因此后者没有足够的表达能力来解析前者。