遇到问题培训tesseract

时间:2015-08-16 00:49:57

标签: tesseract

我是tesseract的新手,我对github页面中的不同目录感到困惑。

tesserac-ocr代码库是我安装的。这在/ usr / local / share / tessdata /

中安装了一个tessdata目录

所以现在在训练tesseract时我运行以下命令 -

# tesseract img.tif img box.train

我收到以下错误

Tesseract Open Source OCR Engine v3.03 with Leptonica
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

显然它无法找到tessdata文件夹。

所以现在我从github(https://github.com/tesseract-ocr/tessdata)获得了tessdata目录。然后将TESSDATA_PREFIX指向github下载的tessdata。什么都不改变。我收到以下错误 -

Tesseract Open Source OCR Engine v3.03 with Leptonica
read_params_file: Can't open box.train

所以我的问题是应该指出tessdata是什么? tesseract在训练命令中从哪里获得box.train?

1 个答案:

答案 0 :(得分:0)

你可以做的最愚蠢的事情之一是新手尝试训练tesseract; - )

下一篇:3.03版本不在官方github.com repo中(顺便说一下:3.03从未正式发布......只是Ubuntu发布了该版本。)

下一步:如果您正确安装了tesseract(来自源代码),则会安装box.train。你是从Ubuntu packages / repo安装的(我不这么认为,因为在那种情况下tesseract不会使用/ usr / local / ...)而不是你应该联系packager他打包tesseract的方式。