OCR的理想字体是什么?

时间:2008-11-25 01:06:19

标签: fonts ocr tesseract

有没有人有使用OCR的不同字体的经验?我正在生成一个ID,然后尝试用tesseract扫描它。目前我只是T& E'n不同的字体,但这似乎效率很低。我尝试过OCR *系列字体,以及Arial和Georgia等其他各种字体。 tesseract往往与OCR *字体混淆。

是否有专门为tesseract设计的字体,或任何适合它的系统字体?

8 个答案:

答案 0 :(得分:16)

好的,谷歌上搜索了一个特定的OCR字体: OCR Font

看起来这是1973年采用的标准。

答案 1 :(得分:14)

尝试了很多不同的字体和 OCR引擎后,我倾向于使用Consolas获得最佳效果。它是一种像等宽字体,但对人类来说更容易阅读。 Consolas包含在几个Microsoft产品中。

还有开源字体Inconsolata Consolas影响。 Inconsolata是Consolas的良好替代品,特别是考虑到许可细节。

在我的测试中,Calibri字体中的数字和空格并不总是被正确识别。 OCR-A给出了很多读数错误。我没有尝试过MIRC,因为它对大多数人来说都不容易阅读。

注意:tesseract在可靠之前需要进行大量测试和微调。在我们的案例中,我们改用了商业许可的OCR引擎(ABBYY),特别是因为可靠性非常重要,我们需要支持多种(欧洲)语言。

更新 2017年1月31日 - 由于潜在的版权问题,将“基于Consolas ”更改为“受Consolas 影响的”。

答案 2 :(得分:5)

我发现Calibri对我来说是最好的。我们每天在自动化系统中使用OCR软件,并在测试了数十种字体(包括一些特定于OCR的字体)后,Calibri始终是最好的。

祝你好运。

答案 3 :(得分:4)

我可能会使用银行用于检查底部的路由号码的相同字体:

http://morovia.com/font/micr.asp

它专门设计为明确的机器可读性。

答案 4 :(得分:2)

我总是通过简单地使用新罗马时代来获得成功。

答案 5 :(得分:1)

我最近在一个名为Laserfiche的ECM中进行了广泛的测试,它使用Nuance OmniPage,我发现等宽字体与动态间隔字体相比表现不佳。那些旧的OCR字体的表现不如更“正常”的字体。特别是对于较小字体大小的数字字符串,如第12点。

奇怪的是,其他人在Calibri取得了成功。它在我的测试中表现非常差,经常得到相似的看起来相互混淆的字母和数字。最好的字体(安装了Office的Windows计算机上的字体)是Consolas,Verdana和Book Antiqua。所有动态衬线字体,字母和数字看起来不同。康索拉斯是冠军。

答案 6 :(得分:0)

目前正在使用Monospace。试过很多字体,但这对我来说是最准确的。

答案 7 :(得分:0)

这实际上取决于所考虑的OCR引擎。

对于gocr,FreeMono是最好的,请参阅gocr文档。

对于tesseract,DejaVu-Serif效果很好,请参见videoCategories

对于abbyocr,verdana很好,请参见https://superuser.com/a/1543382/280936

另请参阅以下摘要:this comparison