ocr - 培训Tesseract 3.02的最佳方法 - Thinbug

培训Tesseract 3.02的最佳方法

时间：2014-11-27 11:55:11

标签： ocr tesseract

我想知道为特定类型的文档训练Tesseract（文本类型/ TIFF等）的最佳方法是什么，具有以下特点：

文件的结构和正文始终相同
唯一改变的是5个字母数字代码（这是真正需要检测的重要事项！）
部分代码为粗体

目前我使用标准训练数据，我检测整个文本，并用一些正则表达式推断代码。没关系，但我有时会遇到错误，例如：

0 / O

L / I / 1

请有人知道一些＆＃34;技巧＆＃34;提高精度？

谢谢！

1 个答案:

答案 0 :(得分：4)

在Tesseract的训练部分，你必须手动制作一个文件，以便指定引擎，以指定不明确的字符。

有关更多信息，请查看＆＃34; unicharambigs＆＃34; Tesseract documentation的一部分。

最诚挚的问候。