Question

从HTML字符串转换为

org.w3c.dom.Document中

我正在使用

jtidy-r938.jar

这是我的代码：

CGRect

但有时候图书馆工作不正常，有些标签会丢失。

请告诉一个好的开放式图书馆来完成这项任务。

非常感谢！

Answer 1

你没有告诉为什么有时候图书馆没有给出好的结果。不过，我经常使用html文件，我必须从中提取数据，遇到的主要问题是某些标签无效，因为例如没有关闭。我发现解决的最佳解决方案是api htmlcleaner（htmlCleaner Website）。

它允许您使您的html文件格式良好。然后，在文档w3c或其他严格格式文件中对其进行转换更容易。

使用HtmlCleaner，你可以这样做：

HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(html);
DomSerializer ser = new DomSerializer(cleaner.getProperties());
Document myW3cDoc = ser.createDOM(node);

我从htmlcleaner中引用DomSerializer。

在Java中将html String转换为org.w3c.dom.Document

1 个答案: