我对计算机视觉完全陌生,正在尝试训练一个模型,该模型采用正常的3通道图像(RGB)并给出输出,这只是一个简单的二进制蒙版。据我所知,称为Unet的体系结构可以做到这一点。例如,TernausnetV2在kaggle比赛中表现很好。在这种模型架构中,我认为输入和输出正确吗?
我有3通道图像(RGB)和二进制蒙版图像(与3通道图像大小相同,所有值均为1或0)。 感谢您的帮助。
答案 0 :(得分:0)
您正在谈论的计算机视觉任务称为语义分割,而U-Net模型是用于解决问题的基本自动编码器体系结构。如今,有许多模型是从U-Net派生而来的(Ternausnet就是其中之一),可以在带有代码SOTA比较link的论文中找到一些比较。 U-Net架构通常使用3通道输入大小进行RGB图像处理,并使用1通道输出大小-模型通常在最后一层使用Sigmoid激活卷积层,其核心大小为1x1,基本上遍及整个图像,并且在每个像素上计算Sigmoid函数 -维基百科link,为每个像素分配0到1之间的值(取决于数据大小,也可以使用tanh--1/1)。可以从Towards数据科学link
的精彩教程中找到更多信息。