CE损耗总结了所有输出节点上的损耗
Sum_i [-target_i * log(output_i)]。
CE损失的导数是:-target_i / output_i。
由于对于target = 0,无论实际输出如何,损耗和损耗的导数均为零,因此似乎只有具有target = 1的节点才能收到有关如何调整权重的反馈。
我还注意到输出= 0时导数的奇异性。反向传播期间该如何处理?
我看不到如何调整权重以匹配目标= 0。也许您更了解:)
答案 0 :(得分:-1)
如果最后一层形成概率分布,则可以使用提到的公式(这样,所有节点都将收到反馈,因为当最后一层神经元的输出增加时,其他节点则必须减少,因为它们形成了概率分布,并且必须加起来1)。通过将softmax激活函数应用于最终层,可以使最终层形成概率分布。您可以详细了解here。