<div id=xyz style="test" class=tt>
<p>Some data</p><br/>Blah blah blah
<input>
</div>
这将呈现为:
Some data
Blah blah blah
这里的html代码格式不正确,我试图将文本数据作为一个简单的字符串,如下所示
string s="Some data\n\nblah blah blah";
没有DOM或SAX会对此有所帮助。
是否有任何(C / C ++ / Java)库可用于解析格式不正确的HTML文件?
答案 0 :(得分:2)
答案 1 :(得分:1)
我会推荐TagSoup(http://home.ccil.org/~cowan/XML/tagsoup/)。将写得不好的HTML转换成漂亮的XML。