寻找用于从ppt,pptx,doc,docx文件中解析和提取对象的库

时间:2011-01-21 07:20:49

标签: java powerpoint openoffice.org docx doc

我正在寻找一个可以打开ppt,pptx,doc,docx文件的库,解析它并从中提取所有对象。

例如,在ppt中,它可以提取所有对象属性,如图像,文本,表自动形状等。然后为我提供对象位置/大小和格式,如字体大小/颜色/粗体等。和图像的能力将每个图像保存为jpg文件。 图书馆还应该能够拍摄整张幻灯片的快照。

我已尝试aspose这样做,但获取此信息并不准确。不提取所有属性加上它的导出,因为图像不准确。使用开放式办公室库有什么想法吗?

我愿意使用Java或C ++库。

2 个答案:

答案 0 :(得分:1)

在工作中,我们使用openoffice Java api从ppt / pptx文件中提取图像。我使用了来自here的文档。我很确定你可以使用该指南中的信息来做你需要的事情。

祝你好运。

答案 1 :(得分:1)

一个选项是apache poi库 - 周围有一些例子,似乎有更多的材料而不是openoffice API。