我正在寻找在Windows XP上运行的开源OCR库。我需要这个来处理图像和PDF。大多数情况下,我想从java接口这个库。知道是否有可用的东西?
问候。
答案 0 :(得分:1)
Tesseract可能是最准确的开源OCR引擎。结合Leptonica图像处理库,它可以读取各种图像格式,并将它们转换为60多种语言的文本。它是1995年UNLV精度测试中的前三大发动机之一。从1995年到2006年,它几乎没有做过任何工作,但从那以后谷歌已经对它进行了广泛的改进。它是在Apache License 2.0下发布的。
Tesseract适用于Linux, Windows(使用VC ++ Express或CygWin) 和Mac OSX
答案 1 :(得分:0)
http://roncemer.com/software-development/java-ocr/
“Java OCR是一套用于图像处理和字符识别的纯Java库。”
答案 2 :(得分:0)
我将看看Apache Tika项目并将其与Tesseract OCR结合起来。 Apache Tika管理从各种各样的文件类型中打开和提取内容。它具有非常可插拔的设计,因此您可以连接OCR进行输入,甚至将其输出连接到Lucene进行搜索。它是纯Java。
答案 3 :(得分:0)
热火对研究OCR做了大量的工作,看看this
答案 4 :(得分:0)
查看Tess4J,一个用于Tesseract OCR API的Java JNA包装器。