美国有线电视新闻网能否学会比某些特征频道更多地权衡某些特征频道?

时间:2016-10-13 05:11:27

标签: machine-learning neural-network deep-learning caffe gradient-descent

这是一个假设的问题。

假设

  • 我正在进行2级语义分段任务
  • 我的基本事实是二元面具
  • 批量大小为1
  • 在我的网络中的任意一点,有一个名为'conv_5'的卷积层,其特征映射大小为90 x 45 x 512.

我们假设我也决定(在训练期间)我将地面实况掩码连接到'conv_5'。这将产生一个新的顶部我们可以调用'concat_1',它将是一个90 x 45 x 513维度的特征映射。

假设网络的其余部分遵循正常模式,例如更多的卷积层,完全连接和softmax丢失。

我的问题是,完全连接的层能够学会将前512个特征通道称得非常低,并且最后一个特征通道(我们知道这是一个完美的基础事实)非常高吗?

如果这是真的那么原则上是这样的,如果特征维度是1,000,000个频道并且我将最后一个频道添加为完美的基础事实,它仍然会学习有效地忽略所有以前的1,000,000个特征频道吗?

我的直觉是,如果有一个非常好的功能通道传入,那么网络应该能够学习比其他通道更多地利用这个通道。我还想认为这与频道数量无关。

(在实践中我有一个场景,我传递了一个近乎完美的地面真相作为第513个特征图,但它似乎完全没有影响。然后当我检查所有513个特征通道的权重的大小所有频道的幅度大致相同。这让我相信“近乎完美的面具”仅被用于其潜力的1/513左右。这就是我提出问题的动机。)

1 个答案:

答案 0 :(得分:2)

假设,如果你有一个"杀戮功能"在你的处置中,网应该学会使用它并忽略"噪音"从其他功能。

BTW,为什么使用完全连接的层进行语义分割?我不确定这是"正常模式"用于语义分段网。

什么可能阻止网络识别杀死功能"?
  - "conv_5"以上的层会使事情变得混乱:如果它们降低了分辨率(采样/汇集/跨步......),那么信息就会丢失,并且很难利用这些信息。具体来说,我怀疑完全连接的层可能会全局搞砸   - 一个错误:你添加"杀戮功能的方式"未与图像对齐。掩模是否被添加了转置,或者您错误地将一个图像的掩模添加到另一个图像(您是否#34;随机播放"训练样本?)

一个有趣的实验:
您可以检查网络是否至少具有使用"杀戮功能的本地最佳权重":您可以使用net surgery手动设置权重,使"conv_5"为零功能,但"杀戮功能"并且后续层的权重不会弄乱这一点。那么你应该具有非常高的准确性和低损失。从这一点开始训练网应该产生非常小的(如果有的话)梯度,即使经过多次迭代,权重也不会发生显着变化。