我需要一些可以用西里尔字母表示字符识别的库。 我只有一个想法,将信件从西里尔字母映射到拉丁语,但质量很差。 有人能告诉我有没有lib。或者是否有任何解决这个问题的方法?
提前致谢。
答案 0 :(得分:4)
据我所知,没有原生的开源Java OCR SDK。有一些Java API包含对本机接口的调用,例如,对于最流行的开源OCR引擎之一--Tesseract(http://groups.google.com/group/tesseract-ocr/) - 有一些像Java包装器一样tesjeract(http://code.google.com/p/tesjeract/)或Tess4J(http://tess4j.sf.net/)。这对您有用,但设置起来相当困难,需要开发图像预处理和字体训练。
另一个解决方案可能是云服务。它要求最终用户应用程序具有Internet连接,但它独立于您的编程语言选择和资源限制。看看ABBYY Cloud OCR SDK,这是ABBYY最近推出的基于云的OCR SDK。它处于测试阶段,所以现在它完全免费使用,它有一个随时可用的Java code samples。
答案 1 :(得分:2)
虽然它不是Java,但在OCR方面,我建议使用开源 Ocropus 系统http://code.google.com/p/ocropus/
此外,该主题讨论了Java OCR解决方案Java OCR implementation
另外,如果您只想要一些临时解决方案,可以尝试使用Google文档OCR http://googlesystem.blogspot.com/2009/09/google-docs-ocr.html