我正在尝试使用Pytesseract OCR从嘈杂的图像中提取文本。我很难从图像中提取/清除文本,因此它的格式适合于Pytesseract。我当前的方法是找到文本区域,然后找到该区域中的主色(通常是文本),最后应用NOT过滤器,以便将主色范围内的所有内容都设置为1,并将其他所有内容都设置为设置为0。
使用此方法生成如下图像时,Pytesseract能够识别文本。
但是,生成这些图像时,Pytesseract无法识别任何文本。我相信这是因为提取的文本已损坏。
我尝试使用高斯模糊,然后在上面提取的文本图像上进行自适应阈值化,腐蚀,膨胀和最终轮廓绘制,但是,这些结果仍然不够。我想知道如何提取文本。最初提取文本是否有问题(使用最主要的颜色),还是修复损坏的文本有问题(如上所述)?
输入图像: