使用训练图像和文本教授Tessearact

时间:2015-08-13 16:02:48

标签: windows visual-studio command-line tesseract

我是Tesseract

的新人

我正在开发Windows操作系统。 我想教tesseract使用我自己的80字符字体。没有其他的。我读了这个解释:

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

但我找不到名为" training"的可执行文件。此外,没有名为" text2image"因为它是在其他论坛上写的。

如果Windows上的字体是本地安装的,我可以解释如何获得所需的tesseract库,我已准备好tiff文件并准备好培训文本。

  

training / text2image --text =" C:\ projects \ scanner \ training_text.txt" --outputbase = ocr.ocrb.exp0 --font =' Courier New' --fonts_dir =" C:\的Windows \字体"

current tesseract directory

1 个答案:

答案 0 :(得分:0)

培训tesseract的最简单方法是使用第三方软件,如jTessBoxEditor(http://vietocr.sourceforge.net/training.html)。即使它没有使用最新版本的tesseract,生成的文件也是兼容的。

您只需选择字体和训练文本,它就会生成所有需要的文件。它还允许您轻松检查生成的框是否正确。