应用错误收集

时间：2009-10-19 09:38:06

标签： ocr text-extraction layout-extraction

根据Wikipedia，“拉丁文字的准确识别，现在认为打字文本在可以获得清晰成像的应用程序（如扫描打印文档）方面被认为是一个很大的问题。”但是，它没有引用。

我的问题是：这是真的吗？目前最先进的技术是如此优秀 - 对于良好的英文文本扫描 - 还没有任何重大改进吗？

或者，这个问题的一个不那么主观的形式是：现代OCR系统在识别高质量扫描的英文文本方面有多准确？

答案 0 :(得分：5)

我认为这确实是一个已解决的问题。只需查看C#，C++，Java等众多OCR技术文章。

当然，本文确实强调脚本需要打字和清晰。这使得识别成为一项相对简单的任务，而如果你需要OCR扫描页面（噪音）或手写（扩散），它可能会变得更加棘手，因为有更多东西需要正确调整。

答案 1 :(得分：3)

狭隘地考虑将足够高质量的2d位图分解为矩形，每个矩形包含一组表现良好，预先指定的字体（参见Omnifont）之一的识别拉丁字符，这是一个已解决的问题。

开始玩这些参数，例如，古怪的未知字体，嘈杂的扫描，亚洲字符，它开始变得有点片状或需要额外的输入。许多着名的Ominfont系统都不能很好地处理连接。

OCR的主要问题是了解输出。如果这是一个已解决的问题，Google图书会提供完美无瑕的结果。