绕过Tesseract预处理

时间:2015-10-20 14:14:37

标签: java ocr tesseract tess4j graphical-programming

我使用 tess4j 作为 tesseract 的包装器从 JAVA 对图像运行一系列 OCR 。 ocr的过程仍然需要花费大量时间(有时甚至是5秒),我正在努力加快速度。

我正在进行自己的图像预处理和二值化,并且tesseract没有必要进行otsu二值化。

我已经阅读了IOS教程,允许跳过图形处理部分,但我无法使用tess4j找到任何内容。

这里的土拨鼠:https://github.com/gali8/Tesseract-OCR-iOS/wiki/Tips-for-Improving-OCR-Results - " ...如果您已经执行了自己的预处理/阈值处理[...],您可能希望绕过内部Tesseract阈值步骤。 "

是否有人知道如何使用 tess4j (来自JAVA)以跳过otsu二值化的方式?

1 个答案:

答案 0 :(得分:1)

检查tesseract-ocr parameters列表以了解适用的任何设置。但我读到如果您发送二进制图像,Tesseract将跳过图像上的阈值(source)。