Question

据我所知，Tesseract 3.x附带6个英文（如果我错了，请更正）字体。我需要训练Tesseract更多5种字体。我只需要大写字母和数字（没有特殊字符或符号）。

我遵循了各种流程，例如： Adding New Fonts to Tesseract 3 OCR Engine

还使用工具来自动完成这个过程 Serak Tesseract Trainer for Tesseract 3.02

的箱子文件

使用上述工具后，我获得eng.traineddata个文件。所有教程都告诉我将此eng.traineddata文件添加到Tesseract-OCR\tessdata文件夹，但这样做会替换原来的eng.traineddata文件。执行此操作后，我将丢失Tesseract 3.x附带的默认字体吗？

如何添加新字体？它仍然不清楚。我希望有人可以帮助我。感谢。

Answer 1

应使用其他名称，例如eng1.traineddata。这样，您可以通过指定语言选项-l eng+eng1将新数据与原始数据一起使用。

Answer 2

如果您使用不同字体的新训练数据，我认为您的新字体没有字典更正。

要添加新的训练数据，您可以这样做（我在这里使用PHP代码）

//  as you new trained data, it must be 3 letter prefix 
// what ever 3 letter you want
$languange = "eng+deu";
$settingLanguage = $tesseract -> setLanguage($language) ;

通过查看tesseract.php函数setLanguage()，您可以通过该函数设置语言。

“添加”新字体到Tesseract eng.traineddata

2 个答案: