我是CS学生的最后一年,对OCR和NLP很感兴趣。
问题是我对OCR一无所知,我的项目持续时间仅为5个月。我想知道OCR& NLP的东西对我的项目是否可行?
为我的项目编写单一语言的(简单)OCR引擎是否太难了?如何为现有的FOSS OCR软件添加语言支持?
答案 0 :(得分:3)
我的背景是在OCR的商业方面,根据我的经验,除了简单的OCR引擎外,任何事情都需要花费很多时间。为了得到合理的结果,您的输入文件必须包含非常干净的文本字符才能用于OCR,或者您需要大量标记的训练数据来训练引擎。这会将使用OCR的输入数据限制为高质量打印文档和计算机生成的文档,例如将Word文档导出为TIFF图像。与甚至Tesseract OCR相比,商业OCR引擎在阅读标准扫描发票和信件方面做得更好,但仍然会出错。
您可以编写一个简单的OCR引擎并使用NLP和语言分析来展示它如何改善OCR结果。大多数OCR引擎无论如何都在做这个,但它可能是一个有趣的项目。商用引擎经过多年的微调,以提高识别准确度,并使用他们能想到的每一个技巧。
本文可能会就如何编写OCR引擎的方法提供一些想法:
http://www.codeproject.com/KB/dotnet/simple_ocr.aspx
您可以为Tesseract项目做出贡献,但您首先需要研究已经包含的内容和不包含的内容,以及其他人是否正在处理同样的问题。