在Windows XP上运行的开源OCR库

时间:2013-04-24 07:09:36

标签: java

我正在寻找在Windows XP上运行的开源OCR库。我需要这个来处理图像和PDF。大多数情况下,我想从java接口这个库。知道是否有可用的东西?

问候。

5 个答案:

答案 0 :(得分:1)

检查Tesseract

Tesseract可能是最准确的开源OCR引擎。结合Leptonica图像处理库,它可以读取各种图像格式,并将它们转换为60多种语言的文本。它是1995年UNLV精度测试中的前三大发动机之一。从1995年到2006年,它几乎没有做过任何工作,但从那以后谷歌已经对它进行了广泛的改进。它是在Apache License 2.0下发布的。

  

Tesseract适用于Linux, Windows(使用VC ++ Express或CygWin)   和Mac OSX

这是一个comparision table from wiki

答案 1 :(得分:0)

http://roncemer.com/software-development/java-ocr/

“Java OCR是一套用于图像处理和字符识别的纯Java库。”

答案 2 :(得分:0)

我将看看Apache Tika项目并将其与Tesseract OCR结合起来。 Apache Tika管理从各种各样的文件类型中打开和提取内容。它具有非常可插拔的设计,因此您可以连接OCR进行输入,甚至将其输出连接到Lucene进行搜索。它是纯Java。

答案 3 :(得分:0)

热火对研究OCR做了大量的工作,看看this

答案 4 :(得分:0)

查看Tess4J,一个用于Tesseract OCR API的Java JNA包装器。