为了进一步解释这个标题,我将一系列单通道图片传递到卷积网络,并将conv3d与conv2d进行比较和对比。我考虑过两种可能的设置:
设置1使用conv2d层,每个图片输入作为单个通道。输入尺寸[batch_size,width,height,num_pictures]。核心尺寸[宽度,高度]和步幅[1,1]。有效的填充。
设置2使用conv3d图层,每张图片为"深度"用于每张图片的内核的分量。输入尺寸[batch_size,num_pictures,width,height,1]。核心尺寸[num_pictures,宽度,高度]。跨步[1,1,1]。有效填充。
我认为,2d卷积网络考虑给定输入的所有通道;那么上述两种设置在功能上是否有实际意义和性能方面的差异?