当与OCR PDF上的Tesseract一起使用时,Tika会复制文本

时间:2017-02-20 15:41:06

标签: pdf ocr tesseract apache-tika

我有一张已经过OCR的扫描PDF,现在有一层扫描图像,上面有文字。

如果我使用带有集成Tesseract的Tika从PDF中提取文本,我会得到重复文本:一个来自OCRed文本,另一个来自Tesseract的OCRing图像。

在这种情况下我只需要OCRed文本。

我不能只禁用Tesseract,因为可能有PDF只包含包含文本和图像的图像或PDF。

Tesseract已集成在Tika中,如Apache Tika extract scanned PDF files

有没有办法告诉Tika不要将Tesseract用于PDF内部有OCR文字的图像?

1 个答案:

答案 0 :(得分:0)

我们有类似的问题,我们试图保持一个简单的if else条件,我们将pdf传递给默认的pdf扫描器,如果它变为空,那么我们在pdf上使用tesseract选项调用。