我正在尝试向tesseract ocr添加新字体。我正在关注this tutorial,但我遇到了一些问题。
这是我到目前为止所做的:
创建培训文档
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
培训Tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
这创建了我的eng.myfont.exp0.box文件。
我用moshpytt打开文件并确保它被正确检测到。
将包装箱文件反馈给tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
我有这个结果:
Tesseract开源OCR引擎v3.03与Leptonica
APPLY_BOXES:
从boxfile中读取的框:146
找到146个好的斑点 培训...字体名称= myfont.exp0
生成6个单词的训练数据
尝试检测框文件中使用的字符集(这是我被卡住的地方)
unicharset_extractor *.box
结果:
unicharset_extractor:找不到命令
我也使unicharset_extractor eng.myfont.exp0.box
得到了相同的结果。
我正在使用:
答案 0 :(得分:6)
Ubuntu 14.04中省略了Tesseract 3.03 RC的培训工具。所以要么退回到Tesseract 3.02,要么升级到Ubuntu 14.10,它应该有它。
答案 1 :(得分:3)
好的,我用Google搜索了这个。这是答案:
您需要在输入文件所在的同一文件夹中运行所有命令。
来自: