我的任务涉及在word文档中提取封面图像。我所遵循的启发式是"如果文档的第一页仅包含图像,则它是封面图像,否则没有封面图像& #34;。所以我需要单独获取第一页的内容并检查它是否只有一个图像。我该怎么办?
我尝试了一堆像POI,docx4j等文字处理API。但是这些API没有任何规定来识别特定页面的内容。我也尝试编写自己的XML解析。我理解word文档是可重排的,docxfile的openxml没有关于隐式分页符的任何线索。 我已发布[有关此问题]:Finding implicit page break in word document using xml parsing 而且没有有用的答案。 因此,如果无法通过xml解析word文档的openxml来完成,那么最好的方法是什么? Java中是否有任何有用的API用于此任务?