应用错误收集

[Microsoft OCR工作人员]我们尚不支持培训OCR为您的用例定制它。但是，我们会积极关注stackoverflow以了解开发人员需要什么，因此我们可以不断改进OCR引擎。

我一直在使用Microsoft OCR一段时间了。与Tesseract相比，它具有非常基本的功能。

例如，Microsoft OCR返回单词和行。但这些线条是无稽之谈。随机地将2或3个单词组合在一起作为＆＃34;行＆＃34;但它们不是真正的路线。＆＃34;线＆＃34;是完全无序的。在这方面，它比Tesseract更糟糕。你必须取每个单词的坐标并自己订购。

Microsoft不会返回字符的矩形，并且绝对无法以任何方式配置或训练Microsoft OCR。您可以使用Windows Update添加语言，用于＆＃34;基本打字＆＃34; = OCR（请参阅http://www.thewindowsclub.com/install-uninstall-languages-windows-10），但您无法训练自己的语言数据。

MSDN表示支持以下25种语言的准确度不同：

优秀：捷克语，丹麦语，荷兰语，英语，芬兰语，法语，德语，匈牙利语，意大利语，挪威语，波兰语，葡萄牙语，罗马尼亚语，塞尔维亚语西里尔语，塞尔维亚语拉丁语，斯洛伐克语，西班牙语和瑞典语。
非常好：简体中文，希腊语，日语，俄语和土耳其语。
好：中国传统和韩国。

识别质量与Tesseract非常相似。它甚至与Tesseract完全相同。某些单个字符无法识别（单个符号如单个＆＃39; $＆＃39;）并且它与Tesseract的星号具有相同的巨大问题。它也像Tesseract那样在错误的位置插入空格。所以我问自己，微软是否正在使用Tesseract？

然而，Microsoft OCR优于Tesseract：图像预处理要好得多。如果您在黄色背景上有红色文字或在黑色上有白色文字，则无关紧要。这是Tesseract的一个特色，它需要一个高质量的黑白图像作为输入。

适用于两种OCR库：如果您有识别问题，请尝试放大图像。即使模糊图像也可能非常有用，因为这样可以消除图像中的噪点。

使用OCR引擎识别Micr字体？

2 个答案: