我有一张已经过OCR的扫描PDF,现在有一层扫描图像,上面有文字。
如果我使用带有集成Tesseract的Tika从PDF中提取文本,我会得到重复文本:一个来自OCRed文本,另一个来自Tesseract的OCRing图像。
在这种情况下我只需要OCRed文本。
我不能只禁用Tesseract,因为可能有PDF只包含包含文本和图像的图像或PDF。
Tesseract已集成在Tika中,如Apache Tika extract scanned PDF files
有没有办法告诉Tika不要将Tesseract用于PDF内部有OCR文字的图像?
答案 0 :(得分:0)
我们有类似的问题,我们试图保持一个简单的if else条件,我们将pdf传递给默认的pdf扫描器,如果它变为空,那么我们在pdf上使用tesseract选项调用。