我正在使用Microsoft OCR Library来阅读文本。
Microsoft OCR库完美运行。但是,我想阅读链接http://www.ict4u.net/databases/database-images/micr.jpg中给出的以下字符列表。有没有办法可以训练OCR库来读取以下字符,或者是否有一种语言可以读取以下字符。
答案 0 :(得分:2)
[Microsoft OCR工作人员]我们尚不支持培训OCR为您的用例定制它。但是,我们会积极关注stackoverflow以了解开发人员需要什么,因此我们可以不断改进OCR引擎。
答案 1 :(得分:1)
我一直在使用Microsoft OCR一段时间了。 与Tesseract相比,它具有非常基本的功能。
例如,Microsoft OCR返回单词和行。 但这些线条是无稽之谈。随机地将2或3个单词组合在一起作为"行"但它们不是真正的路线。 "线"是完全无序的。在这方面,它比Tesseract更糟糕。你必须取每个单词的坐标并自己订购。
Microsoft不会返回字符的矩形,并且绝对无法以任何方式配置或训练Microsoft OCR。您可以使用Windows Update添加语言,用于"基本打字" = OCR(请参阅http://www.thewindowsclub.com/install-uninstall-languages-windows-10),但您无法训练自己的语言数据。
MSDN表示支持以下25种语言的准确度不同:
识别质量与Tesseract非常相似。它甚至与Tesseract完全相同。某些单个字符无法识别(单个符号如单个' $')并且它与Tesseract的星号具有相同的巨大问题。它也像Tesseract那样在错误的位置插入空格。所以我问自己,微软是否正在使用Tesseract?
然而,Microsoft OCR优于Tesseract:图像预处理要好得多。如果您在黄色背景上有红色文字或在黑色上有白色文字,则无关紧要。这是Tesseract的一个特色,它需要一个高质量的黑白图像作为输入。
适用于两种OCR库:如果您有识别问题,请尝试放大图像。即使模糊图像也可能非常有用,因为这样可以消除图像中的噪点。