我正在尝试使用UB-Manheim提供的二进制文件在Windows 7上为新语言训练tesseract。我正在遵循the wiki中描述的培训程序。 text2image
非常有效并可生成文件。但是,当我运行tesseract ... box.train
时,我收到以下错误:
read_params_file: Can't open box.train
二进制文件缺少什么吗?是否有可能在Windows上训练tesseract或我应该切换到Linux?
答案 0 :(得分:1)
您需要tessdata\configs
文件夹下的configs个文件。
答案 1 :(得分:0)
我建议您在 Linux 上训练 tesseract ,并在 Windows 上使用 lang.traineddata 。 我通过批处理文件(train.sh)为linux上的persian培训了 tesseract 3.04 ,并在Windows上使用了far.traineddata。
for i in `ls -1 *.png`; do j=`echo $i| sed "s/\.png//"`;enter code heretesseract $i $j nobatch box.train; done
unicharset_extractor *.box
shapeclustering -F font_properties -U unicharset -O far.unicharset *.tr
mftraining -F font_properties -U unicharset -O far.unicharset *.tr
cntraining *.tr
mv normproto far.normproto; mv inttemp far.inttemp; mv pffmtable far.pffmtable; mv shapetable far.shapetable
combine_tessdata far.