使用OCR引擎识别Micr字体?

时间:2016-08-08 08:17:35

标签: windows-runtime windows-phone ocr microsoft-ocr

我正在使用Microsoft OCR Library来阅读文本。

Microsoft OCR库完美运行。但是,我想阅读链接http://www.ict4u.net/databases/database-images/micr.jpg中给出的以下字符列表。有没有办法可以训练OCR库来读取以下字符,或者是否有一种语言可以读取以下字符。

2 个答案:

答案 0 :(得分:2)

[Microsoft OCR工作人员]我们尚不支持培训OCR为您的用例定制它。但是,我们会积极关注stackoverflow以了解开发人员需要什么,因此我们可以不断改进OCR引擎。

答案 1 :(得分:1)

我一直在使用Microsoft OCR一段时间了。 与Tesseract相比,它具有非常基本的功能。

例如,Microsoft OCR返回单词和行。 但这些线条是无稽之谈。随机地将2或3个单词组合在一起作为"行"但它们不是真正的路线。 "线"是完全无序的。在这方面,它比Tesseract更糟糕。你必须取每个单词的坐标并自己订购。

Microsoft不会返回字符的矩形,并且绝对无法以任何方式配置或训练Microsoft OCR。您可以使用Windows Update添加语言,用于"基本打字" = OCR(请参阅http://www.thewindowsclub.com/install-uninstall-languages-windows-10),但您无法训练自己的语言数据。

MSDN表示支持以下25种语言的准确度不同:

  • 优秀:捷克语,丹麦语,荷兰语,英语,芬兰语,法语,德语,匈牙利语,意大利语,挪威语,波兰语,葡萄牙语,罗马尼亚语,塞尔维亚语西里尔语,塞尔维亚语拉丁语,斯洛伐克语,西班牙语和瑞典语。
  • 非常好:简体中文,希腊语,日语,俄语和土耳其语。
  • 好:中国传统和韩国。

识别质量与Tesseract非常相似。它甚至与Tesseract完全相同。某些单个字符无法识别(单个符号如单个' $')并且它与Tesseract的星号具有相同的巨大问题。它也像Tesseract那样在错误的位置插入空格。所以我问自己,微软是否正在使用Tesseract?

然而,Microsoft OCR优于Tesseract:图像预处理要好得多。如果您在黄色背景上有红色文字或在黑色上有白色文字,则无关紧要。这是Tesseract的一个特色,它需要一个高质量的黑白图像作为输入。

适用于两种OCR库:如果您有识别问题,请尝试放大图像。即使模糊图像也可能非常有用,因为这样可以消除图像中的噪点。