从自然图像中检测文本

时间:2017-08-10 13:23:40

标签: tensorflow computer-vision deep-learning ocr conv-neural-network

我在 tensorflow 中编写代码,使用卷积神经网络检测来自图像的文本。我使用TFRecords文件来读取街景文本数据集,然后,我将图像的大小调整为<​​strong> 128 的高度和宽度。

我使用9- 转换层零填充和三个 max_pool图层,窗口大小为(2×2),步幅为2 < / EM> 即可。由于我只使用三个汇集层,最后一层的形状将是(16×16)。最后一个转化层有'256'过滤器

我也使用了两个回归完全连接图层(tf.nn.sigmoid)和tf.losses.mean_squared_error作为损失函数。

我的问题是 这种架构足以用于检测过程吗?我知道有一些东西叫 NMS 进行检测。在这种情况下,标签是什么?

1 个答案:

答案 0 :(得分:1)

总的来说,这不是一个规则,只是根据我的经验,你应该从一个较小的网络2或3转换层开始,然后说出会发生什么,如果你得到一些好的结果更多地关注获胜的拓扑并适应超参数(learnrat,batchsize等等),如果你没有得到好结果那么深意义添加转换层。并再次评估。 12转是非常巨大的,你的问题复杂性也应该是巨大的!否则你会达到一个很好的准确性,但浪费了很多电脑的力量和时间!并顺便使用金字塔形式意义开始更宽,完成微小