我正在研究Python / Django Web应用程序,我需要从扫描文档中提取文本(用于搜索索引)。
OCR引擎有哪些选择?我知道tesseract,但我对结果并不完全满意。问题也许可以通过更广泛的预处理(旋转,水平调整等)来解决。
要求:
可替换地:
答案 0 :(得分:1)
Tesseract本身可以选择与Leptonica一起编译,Leptonica是一个具有非常详尽的图像处理集的库(我不确定Tesseract本身是否将其用于支持除了基本TIF格式之外的任何其他内容)。可以在the website.上找到完整的功能列表。项目作者Dan Bloomberg撰写了一些关于OCR图像预处理的论文,您可能也对此感兴趣 - 您可以通过{ {1}}谷歌搜索。