Tesseract错误地将文本检测为垂直

时间:2019-05-29 09:58:59

标签: ocr tesseract

我尝试使用Tesseract从扫描的文档中读取数字。我遇到以下问题:在一行数字中,例如

typedef struct{
    //Some vars
}Hotel;

Tesseract可以识别三条垂直线

3.456,78
3.564,98
3.612,34

和一条水平线

 .456,78
 .564,98
 .612,34

因此,它错误地将连续的三个“ 3”解释为水平的“ www”(文本角90)。

文本为等宽字符,点与相邻数字之间的距离较大。

我已经尝试通过将控制参数“ textord_tabfind_force_vertical_text”设置为0来关闭垂直文本识别,但是Tesseract似乎忽略了它。我的希望是当禁用垂直文本识别时,Tesseract不再将“ 3”识别为“ w”。

我使用Tesseract 4.0.0,psm = 12,oem = 1。

非常感谢您的帮助!

0 个答案:

没有答案