我正在搜索谷歌的答案,但我无法获得一个模块将doc / pdf / docx / rtf转换为文本
是否有任何python模块将doc / pdf / docx / rtf格式转换为文本?
答案 0 :(得分:0)
一个模块来统治它们!
textract。它支持许多用于文本提取的文件类型,包括您在问题中指定的所有文件类型。
PDF示例
http://textract.readthedocs.io/en/latest/python_package.html
import textract
text = textract.process('path/to/a.pdf', method='pdfminer')