标签: apache-tika
我正在python应用程序中使用tika从文档中提取文本。一切正常,但不是从pdf文件中的图像中提取的。 Tika从pdf以及图像中提取文本,但从包含图像的pdf中提取文本。我有点困惑。有什么办法吗?我需要将PDF文件转换为图像吗?
tika
Tika
答案 0 :(得分:0)
网站https://pdf2text.online/完全满足您的需求。它从PDF提取可编辑的文本,并对PDF中找到的图像执行OCR。这样,您将获得完整的信息作为可编辑文本。