Question

有人给了我一个充满惊人信息的宝库。扫描公告的200MB .tiff图像可以追溯到40年代。我想将其数字化，但我对OCR一无所知。一些早期的材料几乎不被人类阅读，更不用说机器了。它也在希伯来语中。

我正在寻找有关如何处理这个问题的建议。关于书籍，文章，代码库或软件的好建议（所有这些都应该可以在网上免费获得）。我精通C ++和Python，如果需要，可以选择其他语言。

谢谢。

Answer 1

对于使用OCR库的Python来说，这听起来很棒。快速Google搜索出现了pytesser：

PyTesser是Python的光学字符识别模块。它将图像或图像文件作为输入并输出字符串。

PyTesser使用Tesseract OCR engine，将图像转换为可接受的格式，并将Tesseract可执行文件作为外部脚本调用。提供了Windows可执行文件以及Python脚本。脚本也应该在其他操作系统中工作。

...

使用示例
>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord

OCR简介

1 个答案:

使用示例