标签: java html xml xhtml
我正在寻找一种方法/库,将HTML输入转换为Java中的格式良好的XML。目前我正在使用jTidy,但问题是jTidy做了很多我不想要的清洁工作。例如,有时jTidy会删除空格或标记。
有没有一种方法可以在没有"智能"的情况下获得格式良好的XML。清洁jTidy?
答案 0 :(得分:0)
尝试使用NekoHTML。这个库有很多settings,在你的情况下可能很有用。
答案 1 :(得分:0)
有SAX-Parser,它可以解析HTML。之后,您可以将其另存为XML。
文档:parse-html($html as xs:string)