我正在尝试使用Tesseract对收据进行文本提取。在不进行任何预先处理的情况下,有些结果是好的,但是有些收信确实很差,无法提取很多文本。收信人的素质一般都很好,没有呆板,阴影等(您可以清楚地看到文本)。
我一直在尝试做一些预处理以改善文本提取。我曾经尝试过Tesseracts自己的建议(https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality)和一些关于stackoverflow的帖子,但结果越来越差。
我一直在尝试使用openCV进行预处理。这是我尝试过的一些功能,结果不好。
Cv2.MedianBlur(img,img,3); //for noise removal
Cv2.Filter2D(img,img,img.Depth(),test); //for noise removal
Cv2.CvtColor(img,img,ColorConversionCodes.RGB2GRAY); //for grayscale
Cv2.Threshold(img,img,150,255,ThresholdTypes.Binary); //for Binarize
Cv2.Resize(img,img,new OpenCvSharp.Size(300,300)); //for DPI
这是预处理前的收据:https://imgur.com/a/twZhcC6 预处理阶段之后的收据如下:https://imgur.com/a/TcG8XnE。
如果您看第二张照片,我会明白为什么我得到不好的结果。谁能帮助我改善预处理程序或给我一些提示?