Apache tika将docx文件中的嵌入式字垫文件转换为.bin文件

时间:2018-05-08 06:25:35

标签: java apache apache-tika file-conversion html-content-extraction

我正在尝试提取word文件(docx)中的所有嵌入文件,并将嵌入的文件放在一个单独的文件夹中。我按照apache社区给出的示例https://svn.apache.org/repos/asf/tika/trunk/tika-example/src/main/java/org/apache/tika/example/ExtractEmbeddedFiles.java

虽然这能够正确解析大多数嵌入对象,但将嵌入的字垫文件转换为OleObject.bin。 我想以与文档中嵌入的格式相同的格式访问单词pad文件。

我是Apache Tika的新手,我无法通过正常的谷歌搜索找到任何解决方案,在Tika的v1.3中提到了与我的问题相关的修复,但我使用1.18所以我认为它是固定的,我可能会在实现中遗漏一些东西,请帮我解决这个问题。

0 个答案:

没有答案