使用tesseract对接收器进行图像预处理以获得更好的结果

时间:2019-04-18 07:53:45

标签: c# .net opencv ocr tesseract

我正在尝试使用Tesseract对收据进行文本提取。在不进行任何预先处理的情况下,有些结果是好的,但是有些收信确实很差,无法提取很多文本。收信人的素质一般都很好,没有呆板,阴影等(您可以清楚地看到文本)。

我一直在尝试做一些预处理以改善文本提取。我曾经尝试过Tesseracts自己的建议(https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality)和一些关于stackoverflow的帖子,但结果越来越差。

我一直在尝试使用openCV进行预处理。这是我尝试过的一些功能,结果不好。

Cv2.MedianBlur(img,img,3); //for noise removal
Cv2.Filter2D(img,img,img.Depth(),test); //for noise removal
Cv2.CvtColor(img,img,ColorConversionCodes.RGB2GRAY); //for grayscale
Cv2.Threshold(img,img,150,255,ThresholdTypes.Binary); //for Binarize
Cv2.Resize(img,img,new OpenCvSharp.Size(300,300)); //for DPI

这是预处理前的收据:https://imgur.com/a/twZhcC6 预处理阶段之后的收据如下:https://imgur.com/a/TcG8XnE

如果您看第二张照片,我会明白为什么我得到不好的结果。谁能帮助我改善预处理程序或给我一些提示?

0 个答案:

没有答案