使用python从ms office文件中提取文本

时间:2013-10-21 17:07:28

标签: python django-haystack whoosh

我正在寻找一种从excel / word / ppt文件中提取文本的简单方法。目标是使用haystack索引用于搜索的内容。

有一些像xlrd和pandas这样的软件包适用于excel,但是它们超出了我的需要,而且我不确定它们实际上只是直接打印单元格中未格式化的文本内容。

有人知道一个简单的方法吗?我的猜测是ms office文件必须是xml形的。

谢谢!

一个。

1 个答案:

答案 0 :(得分:2)

我之前已经“手动”完成了这个 - 事实证明,。(doc | ppt | xls)x文件只是包含.xml文件的zip文件,包含所有内容。因此,如果找不到更好的工具,可以使用zipfile和您喜欢的xml解析器来阅读内容。