我在 tensorflow 中编写代码,使用卷积神经网络来检测来自图像的文本。我使用TFRecords文件来读取街景文本数据集,然后,我将图像的大小调整为<strong> 128 的高度和宽度。
我使用9- 转换层与零填充和三个 max_pool图层,窗口大小为(2×2),步幅为2 < / EM> 即可。由于我只使用三个汇集层,最后一层的形状将是(16×16)。最后一个转化层有'256'过滤器。
我也使用了两个回归完全连接图层(tf.nn.sigmoid)和tf.losses.mean_squared_error作为损失函数。
我的问题是 这种架构足以用于检测过程吗?我知道有一些东西叫 NMS 进行检测。在这种情况下,标签是什么?
答案 0 :(得分:1)
总的来说,这不是一个规则,只是根据我的经验,你应该从一个较小的网络2或3转换层开始,然后说出会发生什么,如果你得到一些好的结果更多地关注获胜的拓扑并适应超参数(learnrat,batchsize等等),如果你没有得到好结果那么深意义添加转换层。并再次评估。 12转是非常巨大的,你的问题复杂性也应该是巨大的!否则你会达到一个很好的准确性,但浪费了很多电脑的力量和时间!并顺便使用金字塔形式意义开始更宽,完成微小