标签: java
我需要解析一个.docx文件并提取信息,其中包含多选题格式的问题。它还包含图像(例如数学方程式)以及文本。我尝试了poi和tika,但是只有我可以提取文本。有人可以建议我这样做是否有开源Java工具吗?
答案 0 :(得分:0)
.docx格式本质上是一个zip。要获取图像,请将filename.docx更改为filename.zip并解压缩。
.docx
filename.docx
filename.zip