这绝对是一个新手问题。 caffe中的视频分类任务。
我有一个神经网络,我必须训练视频(图像组)。 我可以选择从几个选项中更改网络输入的形状。
在所有情况下,我都假设网络架构(排列和层数)和学习参数(LR /衰减/正则化/等)是恒定的。
例如,我可以选择将我的输入作为以下之一提供给网络。
1)batch_size x(no_of_imgs * no_of_channels)x height x width {3 dimension input}
2)batch_size x no_of_imgs x no_of_channels x height x width {4 dimension input}
3)batch_size x no_of_channels x no_of_imgs x height x width {4 dimension input}
输入形状如何影响网络的准确性?
答案 0 :(得分:1)
我肯定建议你选择第二次设置。在这种情况下,您可以利用不同的空间和光谱属性以及图像的不变性,这些可能有助于您在使用卷积体系结构时更好地学习。在第一次设置中 - 大部分空间和光谱信息都会丢失。第三点 - 稍微少一些,但仍然会丢失一些光谱信息,这可能会损害您的学习过程。