标签: deep-learning visualization
在Grad-CAM paper中的公式(1)中,取梯度的平均值以计算通道的重要性。为什么用均值而不是绝对值的均值?对我来说,作者似乎隐含地假设负梯度意味着应该抑制特征以减少损失,这从某种意义上讲是有道理的。但是,由于神经网络中的权重可能具有负值,因此该符号实际上没有任何意义。我想念什么吗?