合并两个OCR训练数据

时间:2012-02-19 15:22:17

标签: java linux ocr

我正在尝试识别图像(表单)并转换为文本,目前使用来自Google“tesseract-ocr”的egg.trained数据,这适用于打印字符和手动编写的(手动编写)我开发了训练有素的数据,这对于我训练的角色来说效果很好。我想合并这两个经过训练的数据(tesseract-ocr +我自己训练的数据),这样我就可以识别单个形式的手写和打印字符,请告诉我如何将这两个文件合并为一个。

1 个答案:

答案 0 :(得分:5)

无需合并它们。 Tesseract 3.02支持识别多种语言 - 例如,您可以指定“egg + eng + blah”作为-l选项的值。

相关问题