我想将HTML页面转换为MS字。我想知道哪些API会有所帮助,以及是否还有其他选项可以做同样的事情。 整个页面将被转换为.doc(例如,如果html页面中有表格,则必须在单词doc中创建类似的表格)。 Apache POI不提供在HTML页面中格式化word文档的选项。 我需要的东西可以给我一个完全格式化的word文档。
我寻求的一些事情是JSOUP
,docx4j
,jasper reports
和JOD Convertor
。
我尝试使用JSOUP解析HTML页面,然后获取内容 我的java程序中的页面。现在我需要将这些内容传递给 doc / docx文件。 docx4j可以帮助获取格式化的docx文件吗?
请帮忙。 谢谢。
答案 0 :(得分:1)
我会选择Ashwini Raman的建议。它不适用于每种情况。在复杂的HTML文档的情况下,许多图像和东西字不会做得很好。但对于大多数情况,它应该没问题。否则,你面前有一项复杂的任务。例如,您必须使用jsoup库解析HTML文档,然后使用docx4j库来创建工作文档。 两者的链接都在这里:
http://www.docx4java.org/trac/docx4j
当你这样做时,格式可能是不确定的。
要回答您原来的问题,没有现成的库可以满足您的期望。至少我没见过任何人。
答案 1 :(得分:-3)
我找到了一条方法来做同样的事情。首先,我需要使用JSOUP获取已解析的对象,并将它们传递给文档模板。我现在正在寻找可以为我创建简单模板和动态创建文档的选项。 我已经问过另一个question。