我正在阅读一些tensorflow示例代码,我发现CNN-using-estimatorAPI中的损失和raw CNN中的损失在规模上确实不同,但它们都是相同的损失函数:
前者是loss_op = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits_train, labels=tf.cast(labels, dtype=tf.int32)))
,它使用的是非热门标签。
后者是loss_op =tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=Y))
,它使用单热矢量标签。
为什么前者损失接近0~2.39026,后者损失要大得多,为什么会这样?