tesseract-ocr是否执行任何图像预处理?

时间:2015-02-04 15:23:38

标签: c++ opencv image-processing ocr tesseract

我目前正在使用Tesseract OCR引擎,并且我将它与OpenCV结合使用,以便在将图像发送到OCR引擎之前对其进行预处理。但是,我想知道Tesseract本身是否在提取文本之前执行了一些图像预处理。如果是这样,Tesseract实现的方法是什么?

我的目标是确保我不执行冗余的预处理方法。我执行的一些预处理方法是adaptiveThreshold和GaussianBlur。

非常感谢任何帮助/指导!

编辑: 我知道Tesseract做了基本的图像预处理。我想知道是否可以绕过这些方法并直接输入我手动处理的图像。 (同样,为了避免对图像进行冗余处理)?

1 个答案:

答案 0 :(得分:0)

Tesseract使用Leptonica库执行各种预处理操作,例如Otsu二值化算法,膨胀,腐蚀等。 但是由于操作不依赖于您的数据,因此在某些情况下它们会导致不良结果。 有关更多信息,请阅读this page