OCR简介

时间:2011-04-30 22:27:33

标签: ocr

有人给了我一个充满惊人信息的宝库。扫描公告的200MB .tiff图像可以追溯到40年代。我想将其数字化,但我对OCR一无所知。一些早期的材料几乎不被人类阅读,更不用说机器了。它也在希伯来语中。

我正在寻找有关如何处理这个问题的建议。关于书籍,文章,代码库或软件的好建议(所有这些都应该可以在网上免费获得)。我精通C ++和Python,如果需要,可以选择其他语言。

谢谢。

1 个答案:

答案 0 :(得分:6)

对于使用OCR库的Python来说,这听起来很棒。快速Google搜索出现了pytesser

  

PyTesser是Python的光学字符识别模块。它将图像或图像文件作为输入并输出字符串。

     

PyTesser使用Tesseract OCR engine,将图像转换为可接受的格式,并将Tesseract可执行文件作为外部脚本调用。提供了Windows可执行文件以及Python脚本。脚本也应该在其他操作系统中工作。

     

...

     

使用示例

>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord