Question

我正在解决一个问题，我想自动读取图像上的数字，如下所示：

可以看出，这些图像非常具有挑战性！这些不仅在所有情况下都不相连，而且对比度也相差很大。我的第一次尝试是在一些预处理后使用 pytesseract。我还创建了一个 StackOverflow 帖子 here。

虽然这种方法在单个图像上运行良好，但它并不通用，因为它需要太多的手动信息进行预处理。到目前为止，我拥有的最佳解决方案是迭代一些超参数，例如阈值、腐蚀/膨胀的过滤器大小等。但是，这在计算上很昂贵！

因此我开始相信，我正在寻找的解决方案必须基于深度学习。我在这里有两个想法：

在类似任务中使用预训练网络
将输入图像拆分为单独的数字，并以 MNIST 方式自己训练/微调网络

关于第一种方法，我还没有找到好的东西。有人对此有什么想法吗？

关于第二种方法，我首先需要一种方法来自动生成单独数字的图像。我想这也应该是基于深度学习的。之后，我可能会通过一些数据增强来取得一些不错的结果。

有人有想法吗？ :)

Answer 1

你的任务真的很有挑战性。我有几个想法，可能会对你有所帮助。首先，如果图像正确，则可以使用 EasyOCR。它使用一种复杂的算法来检测图像中称为 CRAFT 的字母，然后使用 CRNN 识别它们。它对符号检测和识别部分提供了非常细粒度的控制。例如，在对图像进行一些手动操作（灰度、对比度增强和锐化）之后，我得到了

并使用以下代码

import easyocr
reader = easyocr.Reader(['en']) # need to run only once to load model into memory
reader.readtext(path_to_file, allowlist='0123456789')

结果是 31197432 和 31197396。

现在，对于对比度恢复部分，opencv 有一个名为 CLAHE 的工具。如果您运行以下代码

img = cv2.imread(fileName)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
blurred = cv2.GaussianBlur(gray, (25, 25), 0)
grayscaleImage = gray * ((gray / blurred) > 0.01)  
clahe = cv2.createCLAHE(clipLimit=6.0, tileGridSize=(16,6))
contrasted = clahe.apply(grayscaleImage)

在原始图像上，您将获得它们在视觉上与上面的非常相似。我相信经过一些清理后，您可以在不过多摆弄超参数的情况下对其进行识别。