应用错误收集

当与OCR PDF上的Tesseract一起使用时，Tika会复制文本

时间：2017-02-20 15:41:06

标签： pdf ocr tesseract apache-tika

我有一张已经过OCR的扫描PDF，现在有一层扫描图像，上面有文字。

如果我使用带有集成Tesseract的Tika从PDF中提取文本，我会得到重复文本：一个来自OCRed文本，另一个来自Tesseract的OCRing图像。

在这种情况下我只需要OCRed文本。

我不能只禁用Tesseract，因为可能有PDF只包含包含文本和图像的图像或PDF。

Tesseract已集成在Tika中，如Apache Tika extract scanned PDF files

有没有办法告诉Tika不要将Tesseract用于PDF内部有OCR文字的图像？

1 个答案:

答案 0 :(得分：0)

我们有类似的问题，我们试图保持一个简单的if else条件，我们将pdf传递给默认的pdf扫描器，如果它变为空，那么我们在pdf上使用tesseract选项调用。