我们可以从请求中收集的pdf文件对象中提取文本,例如
f = request.FILES.get('file', None)
因此,当我们从文本文件对象中获取文本内容时,我们可以从f
提取文档的文本。
答案 0 :(得分:0)
尝试使用名为textract
的库http://textract.readthedocs.io/en/latest/
它支持许多格式,包括PDF
import textract
text = textract.process("path/to/file.extension")