使用CNN,我想拍摄一个图像,其中每个像素都注有3个标签。像这样:
0,1 (not object/object)
0,1,2,3... (Class of object, eg cat,dog)
0,1,2,3...(Object Number of given class eg, 2nd instance of cat)
换句话说,给定一张多只猫和狗的图片,CNN将输出一个给定像素来自一个物体,该物体是一只猫,它属于图像中第二个猫的实例(从左上角算起)以手角为例)。
这可能与单个CNN有关,还是我必须组合多个CNN来实现这一结果?
编辑:我应该注意到我理解我最初必须使用带注释的图像训练CNN,其中每个像素已经具有2或3个标签,如上所述。
答案 0 :(得分:1)
你应该研究完全卷积神经网络。基本上,这些是没有完全连接层的CNN,它们包含反卷积层。因此,给定一个NxN大小的图像,它输出一个NxN大小的图像,每个像素都有自己的标签,可直接应用于语义分割。