Question

使用CNN，我想拍摄一个图像，其中每个像素都注有3个标签。像这样：

0,1 (not object/object)
0,1,2,3... (Class of object, eg cat,dog)
0,1,2,3...(Object Number of given class eg, 2nd instance of cat)

换句话说，给定一张多只猫和狗的图片，CNN将输出一个给定像素来自一个物体，该物体是一只猫，它属于图像中第二个猫的实例（从左上角算起）以手角为例）。

这可能与单个CNN有关，还是我必须组合多个CNN来实现这一结果？

编辑：我应该注意到我理解我最初必须使用带注释的图像训练CNN，其中每个像素已经具有2或3个标签，如上所述。

Answer 1

你应该研究完全卷积神经网络。基本上，这些是没有完全连接层的CNN，它们包含反卷积层。因此，给定一个NxN大小的图像，它输出一个NxN大小的图像，每个像素都有自己的标签，可直接应用于语义分割。