我尝试使用Tesseract从扫描的文档中读取数字。我遇到以下问题:在一行数字中,例如
typedef struct{
//Some vars
}Hotel;
Tesseract可以识别三条垂直线
3.456,78
3.564,98
3.612,34
和一条水平线
.456,78
.564,98
.612,34
因此,它错误地将连续的三个“ 3”解释为水平的“ www”(文本角90)。
文本为等宽字符,点与相邻数字之间的距离较大。
我已经尝试通过将控制参数“ textord_tabfind_force_vertical_text”设置为0来关闭垂直文本识别,但是Tesseract似乎忽略了它。我的希望是当禁用垂直文本识别时,Tesseract不再将“ 3”识别为“ w”。
我使用Tesseract 4.0.0,psm = 12,oem = 1。
非常感谢您的帮助!