CS最后一年项目的任何有趣的OCR / NLP相关项目?

时间:2010-10-21 10:52:07

标签: nlp ocr

我是CS学生的最后一年,对OCR和NLP很感兴趣。

问题是我对OCR一无所知,我的项目持续时间仅为5个月。我想知道OCR& NLP的东西对我的项目是否可行?

为我的项目编写单一语言的(简单)OCR引擎是否太难了?如何为现有的FOSS OCR软件添加语言支持?

1 个答案:

答案 0 :(得分:3)

我的背景是在OCR的商业方面,根据我的经验,除了简单的OCR引擎外,任何事情都需要花费很多时间。为了得到合理的结果,您的输入文件必须包含非常干净的文本字符才能用于OCR,或者您需要大量标记的训练数据来训练引擎。这会将使用OCR的输入数据限制为高质量打印文档和计算机生成的文档,例如将Word文档导出为TIFF图像。与甚至Tesseract OCR相比,商业OCR引擎在阅读标准扫描发票和信件方面做得更好,但仍然会出错。

您可以编写一个简单的OCR引擎并使用NLP和语言分析来展示它如何改善OCR结果。大多数OCR引擎无论如何都在做这个,但它可能是一个有趣的项目。商用引擎经过多年的微调,以提高识别准确度,并使用他们能想到的每一个技巧。

本文可能会就如何编写OCR引擎的方法提供一些想法:

http://www.codeproject.com/KB/dotnet/simple_ocr.aspx

您可以为Tesseract项目做出贡献,但您首先需要研究已经包含的内容和不包含的内容,以及其他人是否正在处理同样的问题。