从python中的pdf文件对象中提取文本

时间:2018-06-11 17:19:53

标签: python file pdf

我们可以从请求中收集的pdf文件对象中提取文本,例如

f = request.FILES.get('file', None)

因此,当我们从文本文件对象中获取文本内容时,我们可以从f提取文档的文本。

1 个答案:

答案 0 :(得分:0)

尝试使用名为textract

的库

http://textract.readthedocs.io/en/latest/

它支持许多格式,包括PDF

import textract
text = textract.process("path/to/file.extension")