从HTML字符串转换为
org.w3c.dom.Document中
我正在使用
jtidy-r938.jar
这是我的代码:
CGRect
但有时候图书馆工作不正常,有些标签会丢失。
请告诉一个好的开放式图书馆来完成这项任务。
非常感谢!
答案 0 :(得分:3)
你没有告诉为什么有时候图书馆没有给出好的结果。 不过,我经常使用html文件,我必须从中提取数据,遇到的主要问题是某些标签无效,因为例如没有关闭。 我发现解决的最佳解决方案是api htmlcleaner(htmlCleaner Website)。
它允许您使您的html文件格式良好。 然后,在文档w3c或其他严格格式文件中对其进行转换更容易。
使用HtmlCleaner,你可以这样做:
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(html);
DomSerializer ser = new DomSerializer(cleaner.getProperties());
Document myW3cDoc = ser.createDOM(node);
我从htmlcleaner中引用DomSerializer。