我将Soft Max Algorithm
用于CIFAR10
数据集,并对我的交叉熵损失图有一些疑问。通过该算法,我设法获得了40%的准确率,因此准确度正在提高。令人困惑的部分是解释交叉熵图的结果,因为它与我在网上针对相似问题看到的任何其他图都不相似。想知道是否有人可以对以下图形进行解释。 y
上的是损失,x上的是批号。这两个图分别针对批次大小1和100。
答案 0 :(得分:0)
(微型)批次只是CIFAR-10的一小部分。有时您选择简单的示例,有时您选择困难的示例。或者,在模型调整到前一批之后,看起来容易的事情就变得困难了。毕竟,它称为随机梯度下降。参见例如讨论区here。
批次大小100:明显正在改善:-)我建议您使用批次中交叉熵的平均值,而不是求和。
批处理大小1:最初的约40k步骤似乎有所改善。然后可能只是振荡。您需要schedule the learning rate。
Softmax不是一种算法,而是a function,它将任意值的矢量转换为非负值且总和为1的矢量,因此可以解释为概率。
那些情节非常笨拙。尝试使用点距较小的散点图。
绘制精度以及交叉熵(在不同尺度上具有较粗的时间分辨率),以了解它们之间的关系。