我正在为TagSoup和jTidy库寻找文档(如果可能的话正式文档)。
我想使用这个库来操作html“tagsoup”文件,这些文件包含在html(html,xhtml或html5)标记之间混合了不同命名空间的xml标记。
我测试了HTMLCleaner,NekoHTML和Jericho,但我没有找到jTidy和TagSoup的文档,除了清除文件的最简单的例子。
我需要有关操纵内容,替换标签,提取信息等的文档......
由于
注意: 测试完所有选项后,我使用 StAX / Woodstox :
答案 0 :(得分:2)
关于tagsoup-friends google群组的类似问题的答案可能有所帮助:
您可能已经看过它们了,但是JTidy的javadoc可以在这里找到:http://jtidy.sourceforge.net/apidocs/index.html