conv2d和conv3d函数之间的区别让我有些困惑。 例如,如果我有一堆N幅图像,其中H高度和W宽度,以及3个RGB通道。网络的输入可以是两种形式 form1:(batch_size,N,H,W,3)这是5级张量 form2:(batch_size,H,W,3N)这是一个4级张量
问题是,如果我将带有大小为(N,3,3)的M个过滤器的conv3d应用于form1并应用带有大小为(3,3)的M个过滤器的conv2d
它们具有基本相同的功能操作吗?我认为这两种形式在时间和空间维度上都是卷积的。
如果有人可以帮助我解决这个问题,我深表感谢。
答案 0 :(得分:1)
如果有一堆图像,则有一个视频。您不能有两种输入形式。您有图像或视频。对于视频案例,您可以使用3D卷积,但尚未为其定义2D卷积。如果按照您所说的那样堆叠通道(3N),则2D卷积将把堆叠解释为具有很多通道的一个图像,而不是堆叠。
请注意,带有(批处理,H,W,通道)的2D卷积与带有(批处理,H,W,通道,1)的3D卷积相同。