将新字体添加到Tesseract 3

时间:2014-10-05 17:49:33

标签: ocr tesseract

我正在尝试向tesseract ocr添加新字体。我正在关注this tutorial,但我遇到了一些问题。

这是我到目前为止所做的:

  1. 创建培训文档

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. 培训Tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    这创建了我的eng.myfont.exp0.box文件。

    我用moshpytt打开文件并确保它被正确检测到。

  3. 将包装箱文件反馈给tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    我有这个结果:

      

    Tesseract开源OCR引擎v3.03与Leptonica
      APPLY_BOXES:
      从boxfile中读取的框:146
      找到146个好的斑点   培训...字体名称= myfont.exp0
      生成6个单词的训练数据

    • eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成
  4. 尝试检测框文件中使用的字符集(这是我被卡住的地方)

    unicharset_extractor *.box

  5. 结果:

      

    unicharset_extractor:找不到命令

    我也使unicharset_extractor eng.myfont.exp0.box得到了相同的结果。

    我正在使用:

    • tesseract 3.03
    • leptonica-1.70
    • libgif 4.1.6(?):libjpeg 8d:libpng 1.2.50:libtiff 4.0.3:zlib 1.2.8:webp 0.4.0
    • Ubuntu 14.04.1 LTS

2 个答案:

答案 0 :(得分:6)

Ubuntu 14.04中省略了Tesseract 3.03 RC的培训工具。所以要么退回到Tesseract 3.02,要么升级到Ubuntu 14.10,它应该有它。

答案 1 :(得分:3)

好的,我用Google搜索了这个。这是答案:

  

您需要在输入文件所在的同一文件夹中运行所有命令。

来自: