最近出现了一项新要求,即从word文档中检索内容,并使用某种编辑器在我们的应用程序中显示/编辑此内容。
因此我可以自由选择工作流程。乍一看,我想到了两个想法:
所以我从(1)开始,因为这很容易和快速测试,而且甚至可能适用于不同类型的程序(不是特定于字的)我已经成为有希望的结果,当我将内容复制到一个简单的编辑窗格时。已保留粗体等格式,显示的签名甚至图片都已显示。
不幸的是,只显示内容是不够的。我需要能够在我的应用程序中编辑和保存更改。这就是它变得复杂的地方。将它们复制/粘贴到我的编辑窗格中时,会使用许多不必要的字特定标记(如着名的o-tag),这些标记在以html格式显示时甚至有时会产生不必要的副作用。但由于我不需要在Word中传输数据,所以根本不需要这些标记。
此外,图片只是暂时在某种临时文件夹中创建,一旦我复制粘贴其他文档或重新启动系统就会丢失。因此我认为在base64中编码这些图片可能是一个解决方案,因为我不需要处理某种文件系统,并且能够将这些图片保存在我们数据库中的html字符串中。
感谢this条目,我能够在编辑窗格中显示base64编码的图片但不幸的是我不知道如何将“动态”转换为base64编码图片。我想过某种剪贴板监听器,但我不确定,如果这是正确的方法。我还检查了剪贴板中提供的单词类型。 RTF看起来很难看,因为那里的图片似乎已经被编码为base64,但我不确定,如果我可以通过告诉它来影响编辑窗格的行为,那么使用什么数据文件。
所以简而言之,我的问题是:你如何检索word文档内容(带图片)并将其保存(例如作为html字符串)在应用程序的数据库后端?
我很好奇,如果你们中的任何人已经有类似的目标或任何想法如何在我们的应用程序中包含这样的功能,有任何建议或至少可以让我朝着正确的方向实现这一目标。提前感谢你花时间来解决这个问题,希望你们有一些想法!
答案 0 :(得分:2)
为了从Word文档中获取所需的一切,您可能必须在应用程序中处理Word文档。
Apache有一个用于Microsoft文档的API - http://poi.apache.org/