搜索字符串python的office文档

时间:2018-05-23 16:52:41

标签: python string windows parsing ms-office

我一直在寻找一种快速且相对简单的搜索方法(grep-ish),用于在不同格式的文件中搜索用户定义的字符串,即使用Python的xlsx,docx,pptx,pdf。

我的研究让我相信,根据单个模块或类似模块,可能没有一种方便的方法。我是否被迫为每种文件类型使用单独的模块?如果是这样的话,他们是否合情合理?

的docx

openpyxl

pptx

板岩

我还查看了解压缩的形式,以获取包含实际文本的xml文件,但它看起来很笨重。我只是想确保没有简单,统一的方法来处理所有这些不同的文件类型。

1 个答案:

答案 0 :(得分:0)

好吧,我大部分都想通了。最后我决定使用powershell结合“itextsharp.dll”来处理文件。事实证明它比使用便携式python更简单。谢谢你的答案: - )