解析.docx文件以提取文本和图像

时间:2019-02-21 05:49:41

标签: java

我需要解析一个.docx文件并提取信息,其中包含多选题格式的问题。它还包含图像(例如数学方程式)以及文本。我尝试了poi和tika,但是只有我可以提取文本。有人可以建议我这样做是否有开源Java工具吗?

1 个答案:

答案 0 :(得分:0)

.docx格式本质上是一个zip。要获取图像,请将filename.docx更改为filename.zip并解压缩。