有人给了我一个充满惊人信息的宝库。扫描公告的200MB .tiff图像可以追溯到40年代。我想将其数字化,但我对OCR一无所知。一些早期的材料几乎不被人类阅读,更不用说机器了。它也在希伯来语中。
我正在寻找有关如何处理这个问题的建议。关于书籍,文章,代码库或软件的好建议(所有这些都应该可以在网上免费获得)。我精通C ++和Python,如果需要,可以选择其他语言。
谢谢。
答案 0 :(得分:6)
对于使用OCR库的Python来说,这听起来很棒。快速Google搜索出现了pytesser:
PyTesser是Python的光学字符识别模块。它将图像或图像文件作为输入并输出字符串。
PyTesser使用Tesseract OCR engine,将图像转换为可接受的格式,并将Tesseract可执行文件作为外部脚本调用。提供了Windows可执行文件以及Python脚本。脚本也应该在其他操作系统中工作。
...
使用示例
>>> from pytesser import * >>> image = Image.open('fnord.tif') # Open image object using PIL >>> print image_to_string(image) # Run tesseract.exe on image fnord >>> print image_file_to_string('fnord.tif') fnord