TensorFlow - 图像中的文本识别

时间:2017-02-15 04:56:59

标签: python tensorflow deep-learning text-recognition

我是TensorFlow和Deep Learning的新手。 我试图识别naturel场景图像中的文本。我曾经使用OCR,但我想使用深度学习。文本始终采用相同的格式: ABC-DEF 88:88

我所做的是识别每个字符/数字。这意味着我在每个角色周围裁剪图像(因此每张图片给我10个字符)来构建我的训练和测试集,并构建一个两个转换神经网络。所以我的训练集是一组角色图片,标签只是字符/数字。

但我想更进一步。我想做的只是提供完整的图片并输出整个文本(不是我以前的模型中的一个字符)。

提前感谢您的帮助。

1 个答案:

答案 0 :(得分:5)

困难在于您不知道文本的位置。解决方案是,给定图像,您需要使用滑动窗口裁剪图像的不同部分,然后使用分类器来确定裁剪区域中是否有文本。如果是这样,请使用您的字符/数字识别器来确定它们确实是哪些字符/数字。

所以你需要训练另一个分类:给定一个裁剪的图像(裁剪图像的大小应该略大于文本区域的大小),判断是否有文本。

只需构建训练集(正样本是文本区域,负样本是从大图像中随机裁剪的其他区域)并训练它〜