python模块将doc / pdf / docx / rtf格式转换为文本

时间:2016-12-15 05:59:14

标签: python pdf text module doc

我正在搜索谷歌的答案,但我无法获得一个模块将doc / pdf / docx / rtf转换为文本

是否有任何python模块将doc / pdf / docx / rtf格式转换为文本?

1 个答案:

答案 0 :(得分:0)

一个模块来统治它们!

textract。它支持许多用于文本提取的文件类型,包括您在问题中指定的所有文件类型。

  • .doc via antiword
  • .pdf通过pdftotext(默认)或pdfminer.six
  • .docx via python-docx
  • .rtf via unrtf

PDF示例

http://textract.readthedocs.io/en/latest/python_package.html

import textract
text = textract.process('path/to/a.pdf', method='pdfminer')