使word解析HTML格式

时间:2012-05-22 09:13:15

标签: java javascript html ms-word apache-poi

我们有一个使用NicEdit在线texteditor的JSP使用JavaScript格式化文本。 “submit”按钮运行一个servlet,将消息字符串上传到我们的MySQL数据库,然后使用以下代码在纸上打印字符串:

POIFSFileSystem fs = new POIFSFileSystem();
DirectoryEntry directory = fs.getRoot();
directory.createDocument("WordDocument", new ByteArrayInputStream(content.getBytes()));
                        FileOutputStream out = new FileOutputStream(filename);
fs.writeFilesystem(out);
out.close();

Desktop.getDesktop().print(destinationFile);

我的问题是,我们如何在打印页面上保留格式(粗体,斜体等)而不是打印

< b>,< i>,< U>标签?

我必须承认我没有做太多预研,因为我真的不知道该找什么?

非常感谢,

JAMM

1 个答案:

答案 0 :(得分:1)

首先,您可以提交一系列格式的Word:doc,docx,rtf,html,Word 2003 XML,Flat OPC XML ......

这个答案特定于docx(虽然看起来你可能正在发送.doc - 不确定你是否致力于此),有两种方法可以处理HTML。

第一个是创建一个包含HTML的altChunk /替代格式输入部分,Word可以在首次打开docx时处理。

第二种是自己转换HTML。从2.8.0开始,docx4j(我是一名提交者)可以将XHTML转换为docx内容。