将HTML转换为格式良好的XML

时间:2015-02-24 20:17:55

标签: java html xml xhtml

我正在寻找一种方法/库,将HTML输入转换为Java中的格式良好的XML。目前我正在使用jTidy,但问题是jTidy做了很多我不想要的清洁工作。例如,有时jTidy会删除空格或标记。

有没有一种方法可以在没有"智能"的情况下获得格式良好的XML。清洁jTidy?

2 个答案:

答案 0 :(得分:0)

尝试使用NekoHTML。这个库有很多settings,在你的情况下可能很有用。

答案 1 :(得分:0)

有SAX-Parser,它可以解析HTML。之后,您可以将其另存为XML。

文档:parse-html($html as xs:string)