在Java中将html String转换为org.w3c.dom.Document

时间:2015-06-07 09:44:16

标签: java

从HTML字符串转换为

  

org.w3c.dom.Document中

我正在使用

  

jtidy-r938.jar

这是我的代码:

CGRect

但有时候图书馆工作不正常,有些标签会丢失。

请告诉一个好的开放式图书馆来完成这项任务。

非常感谢!

1 个答案:

答案 0 :(得分:3)

你没有告诉为什么有时候图书馆没有给出好的结果。 不过,我经常使用html文件,我必须从中提取数据,遇到的主要问题是某些标签无效,因为例如没有关闭。 我发现解决的最佳解决方案是api htmlcleaner(htmlCleaner Website)。

它允许您使您的html文件格式良好。 然后,在文档w3c或其他严格格式文件中对其进行转换更容易。

使用HtmlCleaner,你可以这样做:

HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(html);
DomSerializer ser = new DomSerializer(cleaner.getProperties());
Document myW3cDoc = ser.createDOM(node);

我从htmlcleaner中引用DomSerializer。