如何从pdf文件中的图像中提取文本?

时间:2018-10-11 09:43:25

标签: apache-tika

我正在python应用程序中使用tika从文档中提取文本。一切正常,但不是从pdf文件中的图像中提取的。 Tika从pdf以及图像中提取文本,但从包含图像的pdf中提取文本。我有点困惑。有什么办法吗?我需要将PDF文件转换为图像吗?

1 个答案:

答案 0 :(得分:0)

网站https://pdf2text.online/完全满足您的需求。它从PDF提取可编辑的文本,并对PDF中找到的图像执行OCR。这样,您将获得完整的信息作为可编辑文本。