可能重复:
If you're not supposed to use Regular Expressions to parse HTML, then how are HTML parsers written?
我的问题很简单:当前DOM解析器实际上如何从字符串(XML,HTML或其他)解析DOM?
我知道you shouldn't parse html with RegEx,但DOM解析器无法使用RegEx来匹配打开/关闭标记的模式吗?或者,是否有一个很好的一次性算法可以将提供的字符串解析为字符数组?
答案 0 :(得分:4)
看看这个:
答案 1 :(得分:0)
嗯,你可以从基本的方法开始:
http://www.blackbeltcoder.com/Articles/strings/parsing-html-tags-in-c
然后展开它以将所有内容存储到完整的DOM树结构中。