应用错误收集

时间：2018-07-10 08:10:29

标签： image-processing ocr

我想识别图像中的数字，这些数字不是放在一行中，而是有一些“噪音”，例如下面的图像（只是我的数据的一部分）：我已经搜索了一些项目和论文，但是没有找到解决问题的好方法，谁可以给我一些提示，我该如何解决问题或者什么论文对我有用？谢谢！！！

答案 0 :(得分：0)

如果分割困难，则只需避免分割即可。手写识别面临着同样的问题：如何将图像（来源：IAM数据集）分割成字符？

端到端可训练神经网络（NN）能够识别此类图像中的文本。这些神经网络使用成对的图像和真实的文本进行训练。您无需进行任何细分，也不必指定字符位置。

这是一个用于文本识别的神经网络的外观说明（实现见https://github.com/githubharald/SimpleHTR）。

它包含CNN层，RNN层和最终的CTC层。该CTC层是能够以无分段方式进行训练的成分。

我不想重复太多，请看一下这篇文章以了解这种NN的外观及其工作方式：https://towardsdatascience.com/2326a3487cd5

并阅读本文以进行更深入的讨论并获得更多参考：https://arxiv.org/pdf/1507.05717.pdf