解析格式错误的HTML文档

时间:2014-02-26 17:34:26

标签: java c++ html c

HTML内容:

<div id=xyz style="test" class=tt>
<p>Some data</p><br/>Blah blah blah
<input>
</div>

这将呈现为:

Some data

Blah blah blah

这里的html代码格式不正确,我试图将文本数据作为一个简单的字符串,如下所示

string s="Some data\n\nblah blah blah";

没有DOM或SAX会对此有所帮助。

问题:

是否有任何(C / C ++ / Java)库可用于解析格式不正确的HTML文件?

2 个答案:

答案 0 :(得分:2)

答案 1 :(得分:1)

我会推荐TagSoup(http://home.ccil.org/~cowan/XML/tagsoup/)。将写得不好的HTML转换成漂亮的XML。