java - 在Windows XP上运行的开源OCR库

在Windows XP上运行的开源OCR库

时间：2013-04-24 07:09:36

标签： java

我正在寻找在Windows XP上运行的开源OCR库。我需要这个来处理图像和PDF。大多数情况下，我想从java接口这个库。知道是否有可用的东西？

问候。

5 个答案:

答案 0 :(得分：1)

Tesseract可能是最准确的开源OCR引擎。结合Leptonica图像处理库，它可以读取各种图像格式，并将它们转换为60多种语言的文本。它是1995年UNLV精度测试中的前三大发动机之一。从1995年到2006年，它几乎没有做过任何工作，但从那以后谷歌已经对它进行了广泛的改进。它是在Apache License 2.0下发布的。

Tesseract适用于Linux， Windows（使用VC ++ Express或CygWin） 和Mac OSX

这是一个comparision table from wiki

答案 1 :(得分：0)

http://roncemer.com/software-development/java-ocr/

“Java OCR是一套用于图像处理和字符识别的纯Java库。”

答案 2 :(得分：0)

我将看看Apache Tika项目并将其与Tesseract OCR结合起来。 Apache Tika管理从各种各样的文件类型中打开和提取内容。它具有非常可插拔的设计，因此您可以连接OCR进行输入，甚至将其输出连接到Lucene进行搜索。它是纯Java。

答案 3 :(得分：0)

热火对研究OCR做了大量的工作，看看this

答案 4 :(得分：0)

查看Tess4J，一个用于Tesseract OCR API的Java JNA包装器。