标签: ocr tesseract
我尝试使用Tesseract ocr处理具有以下矩阵的特定卡片:
有没有办法配置Tesseract只提取单个字母?
问题是矩阵的列有字母作为标题:" A B C D E F G H I"当我使用BOX文件训练时,每个字母都被检测到,但是当我执行ocr过程时,字母被合并成一个单词:" ABCDEFGHI"。我需要将单词分开,因为我需要每列的边界(x,y,高度,宽度),这样可以使整个列的处理更加准确。
谢谢,
答案 0 :(得分:1)
如果您可以将间距增加到足够大,则Tesseract可以在设置变量preserve_interword_spaces=1后获取间距(请参阅doc)。
preserve_interword_spaces=1