我需要弄清楚客户端.ppt
文件中发生了什么。什么是开始的好方法?
我最终希望将其转换为HTML。但是如果我只是将.ppt
导出为HTML,我会得到很多图像(而不是文本),这不是一件好事。
编辑:自动将.ppt
转换为HTML的软件非常棒,只要它以文本格式保留尽可能多的信息。如果那不存在,那么下一个最好的事情就是理解.ppt
的内部并编写我自己的代码来进行部分转换。
编辑:我使用了Michiel Leenaars推荐的OfficeConvert。它让我的文字没问题。我的50页8MB测试文件变成了40MB的文本。我得到文字的事实很好。金额上涨的事实正朝着错误的方向发展。那里有很多重复。 “风格”一词出现了410815次; “draw”这个词出现了351229次。
答案 0 :(得分:3)
我认为一种安全的方法是使用OfficeConvert以编程方式使用Microsoft Office自动转换为ODF。使用/?
运行它以获得帮助。有一些依赖(见下文)。
然后使用像lpod这样的好的ODF库来查看它。
您可以查看一些有趣的代码示例here。
<小时/> 依赖关系:
答案 1 :(得分:0)
我喜欢Aspose产品。 (除了作为客户之外,我与他们无关。)我专门使用PPT来编写PPT内部的代码。如果您只是想将其转换为HTML,那就太过分了,但是对于我用它的各种各样的东西都是非常宝贵的。
答案 2 :(得分:0)
如果您了解Java,Apache有POI项目,可以让您查看PPT项目的内容。可以获得你想要的关于项目的所有信息(图像,文本),然后将其转换为html,无论你喜欢什么。
它也是免费的。