标签: caffe loss
我遇到了非融合训练损失的问题。 (批量:16,平均损失:10)。 我尝试过以下方法 +改变学习率lr(初始lr = 0.002导致非常高的损失,大约e + 10)。然后用lr = e-6,损失似乎很小但不会收敛。 +为偏见添加初始化 +为偏差和重量添加正则化
这是network structure和training loss log
希望收到你的来信 最好的问候