我正在做一张名片扫描仪,用于我对数字图像处理的最终检查,我会问你如何预处理名片的照片,以便tesseract可以识别文字。我尝试了很多东西,比如糜烂,扩张,阈值,但我不能有好结果......你能帮助我吗?
谢谢
马
答案 0 :(得分:2)
如果您只关心文本识别而不是预处理,请考虑使用ScanTailor。它是一个很好的预处理工具,它是开源的。
如果您想自己实施预处理,可能需要查看this paper - 尤其是偏斜校正和背景估计。此处描述的算法结果很好。 ScanTailor使用其中一些。
答案 1 :(得分:2)
我建议将开源C ++图像处理库OpenCV与开源免费光学字符识别(OCR)库tesseract结合使用。 由于您的问题信息不是很具体,我可以回答您的问题 OCR的主要程序是:
关于tesseract的几句话: 网上有很多关于图书馆的信息。它是一个谷歌开源库,用于谷歌图书OCR的目的。也可以处理图像中的布局分析,但这并不完美,因此自己进行预处理并仅使用tesseract进行真正的字符识别部分可以获得更好的结果。如果您仍有疑问,或者我错过了您的问题,请随时提出质疑。