我一直在寻找一种快速且相对简单的搜索方法(grep-ish),用于在不同格式的文件中搜索用户定义的字符串,即使用Python的xlsx,docx,pptx,pdf。
我的研究让我相信,根据单个模块或类似模块,可能没有一种方便的方法。我是否被迫为每种文件类型使用单独的模块?如果是这样的话,他们是否合情合理?
的docx
openpyxl
pptx
板岩
我还查看了解压缩的形式,以获取包含实际文本的xml文件,但它看起来很笨重。我只是想确保没有简单,统一的方法来处理所有这些不同的文件类型。
答案 0 :(得分:0)
好吧,我大部分都想通了。最后我决定使用powershell结合“itextsharp.dll”来处理文件。事实证明它比使用便携式python更简单。谢谢你的答案: - )