Question

我正在尝试使用Tesseract对收据进行文本提取。在不进行任何预先处理的情况下，有些结果是好的，但是有些收信确实很差，无法提取很多文本。收信人的素质一般都很好，没有呆板，阴影等（您可以清楚地看到文本）。

我一直在尝试做一些预处理以改善文本提取。我曾经尝试过Tesseracts自己的建议（https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality）和一些关于stackoverflow的帖子，但结果越来越差。

我一直在尝试使用openCV进行预处理。这是我尝试过的一些功能，结果不好。

Cv2.MedianBlur(img,img,3); //for noise removal
Cv2.Filter2D(img,img,img.Depth(),test); //for noise removal
Cv2.CvtColor(img,img,ColorConversionCodes.RGB2GRAY); //for grayscale
Cv2.Threshold(img,img,150,255,ThresholdTypes.Binary); //for Binarize
Cv2.Resize(img,img,new OpenCvSharp.Size(300,300)); //for DPI

这是预处理前的收据：https://imgur.com/a/twZhcC6 预处理阶段之后的收据如下：https://imgur.com/a/TcG8XnE。

如果您看第二张照片，我会明白为什么我得到不好的结果。谁能帮助我改善预处理程序或给我一些提示？

使用tesseract对接收器进行图像预处理以获得更好的结果

0 个答案: