我可以将Tesseract配置为仅检测单个字母和数字吗?

时间:2016-01-05 19:49:47

标签: ocr tesseract

我尝试使用Tesseract ocr处理具有以下矩阵的特定卡片: matrix of numbers

有没有办法配置Tesseract只提取单个字母?

问题是矩阵的列有字母作为标题:" A B C D E F G H I"当我使用BOX文件训练时,每个字母都被检测到,但是当我执行ocr过程时,字母被合并成一个单词:" ABCDEFGHI"。我需要将单词分开,因为我需要每列的边界(x,y,高度,宽度),这样可以使整个列的处理更加准确。

谢谢,

1 个答案:

答案 0 :(得分:1)

如果您可以将间距增加到足够大,则Tesseract可以在设置变量preserve_interword_spaces=1后获取间距(请参阅doc)。