我是深度学习和张量流的新手,我正在尝试培训CNN来定位街景房号数据集中的数字。为此,我有一个32x32图像的输入集,因为我想识别最多5位数,我使用像这样的20个元素的标签向量
[top_x_digit1,top_y_digit1,width_digit1,height_digit1,top_x_digit2等。]
当没有数字时,0,0,0,0
据我所知,在(让我说)3层卷积和汇集后,我可以添加5个(并行)完全连接的层,旨在提取不同数字的每个盒子特征(如果存在,0 0 0 0否则)。
我的方法是否正确?