Python olefile从PPT文件中读取文本

时间:2017-08-02 01:49:53

标签: python

我只是使用当前代码获取一些二进制数据,该代码使用olefile从ppt文件中提取文本

import olefile

ole = olefile.OleFileIO(r'C:\sampleppt.ppt')

print(ole.listdir())
data = ole.openstream('PowerPoint Document').read()
print(data)
ole.close()

如何正确使用olefile从ppt文件中提取文本?

1 个答案:

答案 0 :(得分:0)

对于MacOS Homebrew用户:安装Apache Tika(brew install tika) 我认为它也支持其他操作系统。

命令行界面的工作方式如下:

tika --text something.ppt > something.txt

并在python脚本中使用它:

import os
os.system("tika --text temp.ppt > temp.txt")

你将能够做到这一点,这是我迄今为止唯一的解决方案。