我只是使用当前代码获取一些二进制数据,该代码使用olefile从ppt文件中提取文本
import olefile
ole = olefile.OleFileIO(r'C:\sampleppt.ppt')
print(ole.listdir())
data = ole.openstream('PowerPoint Document').read()
print(data)
ole.close()
如何正确使用olefile从ppt文件中提取文本?
答案 0 :(得分:0)
对于MacOS Homebrew用户:安装Apache Tika(brew install tika
)
我认为它也支持其他操作系统。
命令行界面的工作方式如下:
tika --text something.ppt > something.txt
并在python脚本中使用它:
import os
os.system("tika --text temp.ppt > temp.txt")
你将能够做到这一点,这是我迄今为止唯一的解决方案。