这是一个假设的问题。
假设
'conv_5'
的卷积层,其特征映射大小为90 x 45 x 512. 我们假设我也决定(在训练期间)我将地面实况掩码连接到'conv_5'
。这将产生一个新的顶部我们可以调用'concat_1'
,它将是一个90 x 45 x 513维度的特征映射。
假设网络的其余部分遵循正常模式,例如更多的卷积层,完全连接和softmax丢失。
我的问题是,完全连接的层能够学会将前512个特征通道称得非常低,并且最后一个特征通道(我们知道这是一个完美的基础事实)非常高吗?
如果这是真的那么原则上是这样的,如果特征维度是1,000,000个频道并且我将最后一个频道添加为完美的基础事实,它仍然会学习有效地忽略所有以前的1,000,000个特征频道吗?
我的直觉是,如果有一个非常好的功能通道传入,那么网络应该能够学习比其他通道更多地利用这个通道。我还想认为这与频道数量无关。
(在实践中我有一个场景,我传递了一个近乎完美的地面真相作为第513个特征图,但它似乎完全没有影响。然后当我检查所有513个特征通道的权重的大小所有频道的幅度大致相同。这让我相信“近乎完美的面具”仅被用于其潜力的1/513左右。这就是我提出问题的动机。)
答案 0 :(得分:2)
假设,如果你有一个"杀戮功能"在你的处置中,网应该学会使用它并忽略"噪音"从其他功能。
BTW,为什么使用完全连接的层进行语义分割?我不确定这是"正常模式"用于语义分段网。 什么可能阻止网络识别杀死功能"?
- "conv_5"
以上的层会使事情变得混乱:如果它们降低了分辨率(采样/汇集/跨步......),那么信息就会丢失,并且很难利用这些信息。具体来说,我怀疑完全连接的层可能会全局搞砸
- 一个错误:你添加"杀戮功能的方式"未与图像对齐。掩模是否被添加了转置,或者您错误地将一个图像的掩模添加到另一个图像(您是否#34;随机播放"训练样本?)
一个有趣的实验:
您可以检查网络是否至少具有使用"杀戮功能的本地最佳权重":您可以使用net surgery手动设置权重,使"conv_5"
为零功能,但"杀戮功能"并且后续层的权重不会弄乱这一点。那么你应该具有非常高的准确性和低损失。从这一点开始训练网应该产生非常小的(如果有的话)梯度,即使经过多次迭代,权重也不会发生显着变化。