Docx4J中的自定义解决方案,用于将Docx转换为HTML

时间:2013-03-18 10:48:44

标签: java docx4j

我有此要求将多个DOCX文件转换为HTML格式,如果可能,转换为RTF
Docx4j似乎是一个很好的java库 使用HtmlExporterNG2.html方法不一定能为我提供所需的结果。因此,我正在考虑修改从docx文件中提取的样式表,然后将其用于此转换,因为所有这些docx文件都有不同的格式,因此无法使用标准样式表。
我是否正确认为运行时修补样式表会起作用?我应该注意哪些重要的事情? 我将它用作java版本6的独立java应用程序。
我的查询可能有点模糊,但我正在寻求一个正确的方向。

1 个答案:

答案 0 :(得分:0)

@Jason我想忽略输入docx中的某些格式。由于转换后的html有一些额外的间距或垃圾字符等添加到其中。

作为一种解决方案,我创建了一个新的xslt。对于大多数情况,它与样本中的非常相似,但几乎没有细微的调整。新的xslt现在将输入的docx文件转换为适用于IE8,Mozilla或Chrome的格式正确(我需要)的html。