应用错误收集

将新字体添加到Tesseract 3

时间：2014-10-05 17:49:33

标签： ocr tesseract

我正在尝试向tesseract ocr添加新字体。我正在关注this tutorial，但我遇到了一些问题。

这是我到目前为止所做的：

创建培训文档

convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
培训Tesseract

tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

这创建了我的eng.myfont.exp0.box文件。

我用moshpytt打开文件并确保它被正确检测到。
将包装箱文件反馈给tesseract

tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

我有这个结果：


Tesseract开源OCR引擎v3.03与Leptonica
  APPLY_BOXES：
  从boxfile中读取的框：146
  找到146个好的斑点   培训...字体名称= myfont.exp0
  生成6个单词的训练数据
- eng.myfont.exp0.box.tr文件和eng.myfont.exp0.box.txt生成
尝试检测框文件中使用的字符集（这是我被卡住的地方）

unicharset_extractor *.box

结果：

unicharset_extractor：找不到命令

我也使unicharset_extractor eng.myfont.exp0.box得到了相同的结果。

我正在使用：

tesseract 3.03
leptonica-1.70
libgif 4.1.6（？）：libjpeg 8d：libpng 1.2.50：libtiff 4.0.3：zlib 1.2.8：webp 0.4.0
Ubuntu 14.04.1 LTS

2 个答案:

答案 0 :(得分：6)

Ubuntu 14.04中省略了Tesseract 3.03 RC的培训工具。所以要么退回到Tesseract 3.02，要么升级到Ubuntu 14.10，它应该有它。

答案 1 :(得分：3)

好的，我用Google搜索了这个。这是答案：

您需要在输入文件所在的同一文件夹中运行所有命令。

来自：