我正在尝试提取word文件(docx)中的所有嵌入文件,并将嵌入的文件放在一个单独的文件夹中。我按照apache社区给出的示例https://svn.apache.org/repos/asf/tika/trunk/tika-example/src/main/java/org/apache/tika/example/ExtractEmbeddedFiles.java
虽然这能够正确解析大多数嵌入对象,但将嵌入的字垫文件转换为OleObject.bin。 我想以与文档中嵌入的格式相同的格式访问单词pad文件。
我是Apache Tika的新手,我无法通过正常的谷歌搜索找到任何解决方案,在Tika的v1.3中提到了与我的问题相关的修复,但我使用1.18所以我认为它是固定的,我可能会在实现中遗漏一些东西,请帮我解决这个问题。