为OCR设置Tesseract字体

时间:2015-07-14 06:45:33

标签: fonts ocr tesseract

我想使用tesseract进行序列号识别,我只想识别单个字符,没有单词,没有字典。 因此,我想使用已经训练过的tesseract字体类型之一来获得更好的识别结果。

这些是训练有素的Tesseract字体类型:

Andale_Mono.ttf
Arial_Black.ttf
Arial_Bold.ttf
Arial.ttf
Comic_Sans_MS_Bold.ttf
Comic_Sans_MS.ttf
Courier_New_Bold.ttf
Courier_New.ttf
Georgia_Bold.ttf
Georgia.ttf
Gottf
Impact.ttf
Times_New_Roman_Bold.ttf
Times_New_Roman.ttf
Trebuchet_MS_Bold.ttf
Trebuchet_MS.ttf
Verdana_Bold.ttf
Verdana.ttf

由于训练有素的字体类型也有不同的字体设计风格,因此在区分例如" Z"和" 2"字符。 Times New Roman的设计更加圆润,而Arial只有更多的直线。

Font-type design differences

我的经验是,tesseract在区分" Z"和" 2"由于其他字体设计的相似性发生了变化。

因此,如果使用tesseract只使用一种字体类型(例如Arial)进行字符识别,我认为我可以获得更好的识别结果。

问题:

是否有可能在tesseract中指定font-type?

类似但较旧的主题(2012年10月)Link

0 个答案:

没有答案