应用错误收集

我的任务涉及在word文档中提取封面图像。我所遵循的启发式是＆＃34;如果文档的第一页仅包含图像，则它是封面图像，否则没有封面图像＆＃34;。所以我需要单独获取第一页的内容并检查它是否只有一个图像。我该怎么办？

我尝试了一堆像POI，docx4j等文字处理API。但是这些API没有任何规定来识别特定页面的内容。我也尝试编写自己的XML解析。我理解word文档是可重排的，docxfile的openxml没有关于隐式分页符的任何线索。我已发布[有关此问题]：Finding implicit page break in word document using xml parsing 而且没有有用的答案。因此，如果无法通过xml解析word文档的openxml来完成，那么最好的方法是什么？ Java中是否有任何有用的API用于此任务？

从word文档中提取封面图像

0 个答案: