图像预处理tesseract

时间:2012-08-09 08:37:54

标签: opencv preprocessor ocr tesseract

我正在做一张名片扫描仪,用于我对数字图像处理的最终检查,我会问你如何预处理名片的照片,以便tesseract可以识别文字。我尝试了很多东西,比如糜烂,扩张,阈值,但我不能有好结果......你能帮助我吗?

谢谢

2 个答案:

答案 0 :(得分:2)

如果您只关心文本识别而不是预处理,请考虑使用ScanTailor。它是一个很好的预处理工具,它是开源的。

如果您想自己实施预处理,可能需要查看this paper - 尤其是偏斜校正和背景估计。此处描述的算法结果很好。 ScanTailor使用其中一些。

答案 1 :(得分:2)

我建议将开源C ++图像处理库OpenCV与开源免费光学字符识别(OCR)库tesseract结合使用。 由于您的问题信息不是很具体,我可以回答您的问题 OCR的主要程序是:

  1. 对图像执行某种预处理
  2. 文本检测以获得您的投资回报率(感兴趣的区域,包含您的文本的区域)
  3. 字符检测(采用纯文本图像并将其用作tesseract的输入
  4. 关于tesseract的几句话: 网上有很多关于图书馆的信息。它是一个谷歌开源库,用于谷歌图书OCR的目的。也可以处理图像中的布局分析,但这并不完美,因此自己进行预处理并仅使用tesseract进行真正的字符识别部分可以获得更好的结果。如果您仍有疑问,或者我错过了您的问题,请随时提出质疑。