我正在寻找处理一堆扫描的响应明信片,这些明信片上有手写联系信息(即姓名,地址,电话,电子邮件等)。
我很好奇是否有可行的开源库或软件来完成这项工作(理想情况下是Java或R)。环顾四周,很多信息来自2009年或早期,并不是很令人鼓舞。
语言是英语。
有什么建议吗?
编辑:我查看了OCRopus页面,但最新版本是从2009年5月开始。任何人都有这方面的经验或是否有更新的版本?答案 0 :(得分:3)
您可能需要查看http://code.google.com/p/ocropus/,这是一个开源OCR系统。
但是,它似乎是用C ++和python编写的。
* 更新:*
由于其中一个研究项目是手写分析仪,我希望它可能有所帮助。
OCRopus引擎基于两个研究项目:a 90年代中期开发的高性能手写识别器 由美国人口普查局部署,以及新颖的高性能布局 分析方法。
如果您查看http://code.google.com/p/ocropus/source/browse/源文件自2011年10月起已更新(三者之一是从2012年3月开始),所以它似乎目前仍在开发中。
答案 1 :(得分:3)
我不知道任何有效的开源手写识别库,无论我已经在OCR领域已经有一段时间了。通常手写比OCR更难,我会说没有合适的商业解决方案。所有存在都有自己的问题,只能在非常狭窄的应用程序中工作,如字典有限,文字写得好等。如果您仍然感兴趣我会建议检查法国公司I2IA的技术
答案 2 :(得分:2)
首先,据我所知,没有本机开源Java OCR SDK。有一些Java API包含对本机接口,tesjeract(http://code.google.com/p/tesjeract/)或Tess4J(http://tess4j.sf.net/)的调用。
接下来,您需要指定是否查找手写或手写文本。如果您需要手写文本识别 - 我不相信您将能够解决您的任务,因为其他答案中陈述的原因。
但是,如果您需要手写文本的ICR(代表智能字符识别)(在调查,表格等中使用相当清晰的字母),可能会有一个解决方案。虽然我相信tesseract(尽管被认为是开源引擎中最好的)并不会在这里为你完成这项工作,但你可以寻找更准确的SDK。
也许这个问题会有所帮助:Handwritten scanned Doc to .txt File?