java中的JPedal库通常用于将pdf转换为XML或HTML。但是,我需要知道我们是否可以从HTML5文档中提取数据并使用JPedal库API将其保存到XML? 还有其他可能的选择吗?
此外,我正在尝试使用Java解析HTML5文档并将其存储在XML中。有什么好的解决方案可以找到特定的标签并从中呈现XML吗?
请告诉我。谢谢。
答案 0 :(得分:0)
有许多Java HTML解析器,但我建议使用validator.nu中的HTML5解析器,可从此处下载:http://about.validator.nu/htmlparser/。
编写使用HTML5的主要角色之一的HTML5解析器算法,Mozilla的Henri Sivonen,你将找不到更可靠的HTML解析器,它创建了一个真正的DOM,可以使用标准XML工具进行操作并查询用于使用XPath的超链接。有一些示例说明如何使用XSLT转换以及如何获取创建的DOM的XML序列化。