根据Wikipedia,“拉丁文字的准确识别,现在认为打字文本在可以获得清晰成像的应用程序(如扫描打印文档)方面被认为是一个很大的问题。”但是,它没有引用。
我的问题是:这是真的吗?目前最先进的技术是如此优秀 - 对于良好的英文文本扫描 - 还没有任何重大改进吗?
或者,这个问题的一个不那么主观的形式是:现代OCR系统在识别高质量扫描的英文文本方面有多准确?
答案 0 :(得分:5)
我认为这确实是一个已解决的问题。只需查看C#,C++,Java等众多OCR技术文章。
当然,本文确实强调脚本需要打字和清晰。这使得识别成为一项相对简单的任务,而如果你需要OCR扫描页面(噪音)或手写(扩散),它可能会变得更加棘手,因为有更多东西需要正确调整。
答案 1 :(得分:3)
狭隘地考虑将足够高质量的2d位图分解为矩形,每个矩形包含一组表现良好,预先指定的字体(参见Omnifont)之一的识别拉丁字符,这是一个已解决的问题。
开始玩这些参数,例如,古怪的未知字体,嘈杂的扫描,亚洲字符,它开始变得有点片状或需要额外的输入。许多着名的Ominfont系统都不能很好地处理连接。
OCR的主要问题是了解输出。如果这是一个已解决的问题,Google图书会提供完美无瑕的结果。