Tesseract OCR执行哪些预处理操作?

时间:2014-11-19 13:36:13

标签: tesseract

我无法找到详细的文档,我也不觉得浏览源代码。我想不要重做canny边缘检测,例如,如果它已经由Tesseract引擎完成。

1 个答案:

答案 0 :(得分:6)

本文档概述了引擎:https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

所以看起来你不需要实现canny边缘检测。

Tesseract在处理图像之前使用Otsu阈值处理来对图像进行二值化https://github.com/tesseract-ocr/tesseract/blob/master/ccstruct/otsuthr.h

编辑:如果您想要查看二值化图像,只需在" \ tessdata \ configs \"中创建一个新的配置文件,请添加以下行:tessedit_write_images True并处理您的图片:{{ 1}}。 Tesseract将二值化图像保存为tesseract your_image out your_config_file