应用错误收集

如何从pdf文件中的图像中提取文本？

时间：2018-10-11 09:43:25

标签： apache-tika

我正在python应用程序中使用tika从文档中提取文本。一切正常，但不是从pdf文件中的图像中提取的。 Tika从pdf以及图像中提取文本，但从包含图像的pdf中提取文本。我有点困惑。有什么办法吗？我需要将PDF文件转换为图像吗？

1 个答案:

答案 0 :(得分：0)

网站https://pdf2text.online/完全满足您的需求。它从PDF提取可编辑的文本，并对PDF中找到的图像执行OCR。这样，您将获得完整的信息作为可编辑文本。