如何使用python中的tika包从ppt中读取单个幻灯片?

时间:2019-05-23 01:17:49

标签: python-3.x compare apache-tika python-pptx tika-server

我想比较两个pptx文件中的数据,并使用python显示差异。

我尝试使用下面的代码,但是它在单个文件中提供所有内容。无法基于幻灯片分离数据。

我能够使用tika读取pptx的所有内容,但是我需要幻灯片内容才能与其他pptx文件进行比较。

from tika import parser
parsed = parser.from_file('act.pptx')
act =parsed['content']
act=act.strip().replace('\n',' ')

预期结果是将每个幻灯片存储一个文本文件。 实际结果是我将所有幻灯片数据都整合到一个文本文件中。

0 个答案:

没有答案