应用错误收集

我的背景是在OCR的商业方面，根据我的经验，除了简单的OCR引擎外，任何事情都需要花费很多时间。为了得到合理的结果，您的输入文件必须包含非常干净的文本字符才能用于OCR，或者您需要大量标记的训练数据来训练引擎。这会将使用OCR的输入数据限制为高质量打印文档和计算机生成的文档，例如将Word文档导出为TIFF图像。与甚至Tesseract OCR相比，商业OCR引擎在阅读标准扫描发票和信件方面做得更好，但仍然会出错。

您可以编写一个简单的OCR引擎并使用NLP和语言分析来展示它如何改善OCR结果。大多数OCR引擎无论如何都在做这个，但它可能是一个有趣的项目。商用引擎经过多年的微调，以提高识别准确度，并使用他们能想到的每一个技巧。

本文可能会就如何编写OCR引擎的方法提供一些想法：

http://www.codeproject.com/KB/dotnet/simple_ocr.aspx

您可以为Tesseract项目做出贡献，但您首先需要研究已经包含的内容和不包含的内容，以及其他人是否正在处理同样的问题。

CS最后一年项目的任何有趣的OCR / NLP相关项目？

1 个答案: