Windows上的tesseract培训

时间:2016-10-30 10:07:21

标签: tesseract

我正在尝试使用UB-Manheim提供的二进制文件在Windows 7上为新语言训练tesseract。我正在遵循the wiki中描述的培训程序。 text2image非常有效并可生成文件。但是,当我运行tesseract ... box.train时,我收到以下错误:

read_params_file: Can't open box.train

二进制文件缺少什么吗?是否有可能在Windows上训练tesseract或我应该切换到Linux?

2 个答案:

答案 0 :(得分:1)

您需要tessdata\configs文件夹下的configs个文件。

答案 1 :(得分:0)

我建议您在 Linux 上训练 tesseract ,并在 Windows 上使用 lang.traineddata 我通过批处理文件(train.sh)为linux上的persian培训了 tesseract 3.04 ,并在Windows上使用了far.traineddata。

        for i in `ls -1 *.png`; do j=`echo $i| sed "s/\.png//"`;enter code heretesseract $i $j nobatch box.train; done
        unicharset_extractor *.box
        shapeclustering -F font_properties -U unicharset -O far.unicharset *.tr
        mftraining -F font_properties -U unicharset -O far.unicharset *.tr
        cntraining *.tr
        mv normproto far.normproto; mv inttemp far.inttemp; mv pffmtable far.pffmtable; mv shapetable far.shapetable
        combine_tessdata far.