我正在寻找一个在Linux上运行的开源OCR库。我需要这个适用于PNG和PDF。大多数情况下,我想从java或ruby接口这个库。知道是否有可用的东西?
问候。
答案 0 :(得分:12)
Tesseract是一个非常好的OCR引擎:https://github.com/tesseract-ocr/tesseract
该项目由惠普实验室推出,现在由谷歌继续赞助(Google Books!)。它是在Apache许可下发布的,它在Linux上运行。它使用Tiff或PNG文件;对于PDF,您需要转换为这些格式之一。我想没有绑定所以你应该把这个软件作为子程序调用......
答案 1 :(得分:1)
Cuneiform是免费的,并且做得不错。您可以将其作为子程序调用,但我知道没有语言绑定。它不会直接读取PDF,但您可以轻松拆分作为扫描图像序列的PDF,将它们送到Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的PDF格式。
答案 2 :(得分:0)
尝试tesjeract,它使用JNI调用Tesseract OCR API。
对于PDF,您需要先使用GhostScript将它们转换为图像。