据我所知,Tesseract 3.x附带6个英文(如果我错了,请更正)字体。我需要训练Tesseract更多5种字体。我只需要大写字母和数字(没有特殊字符或符号)。
我遵循了各种流程,例如: Adding New Fonts to Tesseract 3 OCR Engine
还使用工具来自动完成这个过程 Serak Tesseract Trainer for Tesseract 3.02
为了生成包含QT Box Editor
的箱子文件使用上述工具后,我获得eng.traineddata
个文件。所有教程都告诉我将此eng.traineddata
文件添加到Tesseract-OCR\tessdata
文件夹,但这样做会替换原来的eng.traineddata
文件。执行此操作后,我将丢失Tesseract 3.x附带的默认字体吗?
如何添加新字体?它仍然不清楚。我希望有人可以帮助我。感谢。
答案 0 :(得分:16)
应使用其他名称,例如eng1.traineddata
。这样,您可以通过指定语言选项-l eng+eng1
将新数据与原始数据一起使用。
答案 1 :(得分:0)
如果您使用不同字体的新训练数据,我认为您的新字体没有字典更正。
要添加新的训练数据,您可以这样做(我在这里使用PHP代码)
// as you new trained data, it must be 3 letter prefix
// what ever 3 letter you want
$languange = "eng+deu";
$settingLanguage = $tesseract -> setLanguage($language) ;
通过查看tesseract.php函数setLanguage()
,您可以通过该函数设置语言。