改进Tesseract OCR中的预处理步骤以实现实时捕获

时间:2014-09-05 07:13:23

标签: ios ocr tesseract

我正在使用Tesseract库阅读身份证信息。我尝试使用一些Google images并取得了不错的效果,但是当我拍摄实时图像时,就是从iPhone相机拍摄图像时,我没有取得好成绩。

我找到了Tesseract建议的一些预处理步骤。

1。修复DPI(如果需要)300 DPI是最低的。

如何实时从iPhone相机捕捉图像时设置图像的DPI?

2。修复文字大小(例如12磅应该没问题)。

如何修复iPhone相机创建的大图像的文字大小?

第3。尝试修复文本行(偏斜校正和去扭曲文本)。

我读到Tesseract使用Leptonica库应用了dewarp文本。在这个预处理阶段,文本是否需要消解或去偏移。?

4。尝试修复图像的照明(例如,图像没有暗部)。

我可以使用OpenCV执行图像照明吗?

5。对图像进行二值化和去噪。

当我为实时图像应用阈值或自适应阈值时,我得到了不良的二值化图像。

如何将这些实时图像二值化?

1 个答案:

答案 0 :(得分:1)

    1. and 2.: When a text has a point size of 12, it means that it takes up 12 pixels of height at 72 DPI. At 300 DPI this is about 50 pixels. So what you should take from 1. and 2. is that you should try to make the resolution of the captured image so that the lines of text is around 50 pixels tall. How you would do this depends on how you are capturing the image.
    1. It is easier to ask the user to hold the camera straight :-)
    1. and 5.. you could try to apply some filtering. Again, it might be easier to ask the use to ensure proper lighting is applied.