我在同一位置拍摄了20张心脏图像,其中有50张。 因此,20个图像是一个输入,而我有50个输入。 因为心脏在移动,所以所有图像都是不同的。 我想使用深度学习将这些图像作为输入,然后将分段的二进制蒙版图像作为输出。
我将输入内容视为3D,并在网上找到了很多3D CNN或FCN。但是x,y,z 3D就是这种情况。 我的情况是x,y,t。
有什么建议吗?
答案 0 :(得分:0)
此问题类似于视频对象分割,在视频对象分割中,需要通过利用跨帧的时间信息在视频中的多个帧上对对象进行语义分割。在您的情况下,每组输入图像都可以被视为具有 20帧的视频,且数据集包含 50个视频,并且您可以使用有监督,半监督或无监督的视频对象分割模型(取决于获取地面真相掩模的可用性/成本)。此公式解决了使用FCN按(x,y,t)
顺序分割输入图像堆栈的任务。
以下是我发现的与视频对象细分相关的研究参考: