查看.ppt文件的内部结构?

时间:2011-08-10 22:40:37

标签: html ms-office

我需要弄清楚客户端.ppt文件中发生了什么。什么是开始的好方法?

我最终希望将其转换为HTML。但是如果我只是将.ppt导出为HTML,我会得到很多图像(而不是文本),这不是一件好事。

编辑:自动将.ppt转换为HTML的软件非常棒,只要它以文本格式保留尽可能多的信息。如果那不存在,那么下一个最好的事情就是理解.ppt的内部并编写我自己的代码来进行部分转换。

编辑:我使用了Michiel Leenaars推荐的OfficeConvert。它让我的文字没问题。我的50页8MB测试文件变成了40MB的文本。我得到文字的事实很好。金额上涨的事实正朝着错误的方向发展。那里有很多重复。 “风格”一词出现了410815次; “draw”这个词出现了351229次。

3 个答案:

答案 0 :(得分:3)

我认为一种安全的方法是使用OfficeConvert以编程方式使用Microsoft Office自动转换为ODF。使用/?运行它以获得帮助。有一些依赖(见下文)。

然后使用像lpod这样的好的ODF库来查看它。

您可以查看一些有趣的代码示例here

<小时/> 依赖关系:

答案 1 :(得分:0)

我喜欢Aspose产品。 (除了作为客户之外,我与他们无关。)我专门使用PPT来编写PPT内部的代码。如果您只是想将其转换为HTML,那就太过分了,但是对于我用它的各种各样的东西都是非常宝贵的。

答案 2 :(得分:0)

如果您了解Java,Apache有POI项目,可以让您查看PPT项目的内容。可以获得你想要的关于项目的所有信息(图像,文本),然后将其转换为html,无论你喜欢什么。

它也是免费的。

相关问题