我对KLD和CE的概念有些困惑。 我知道CE损失的效果与最小化KL散度相同。
(KL divergence(P||Q) = cross entropy(P,Q) - entropy(P). because P is constant.)
(当Q
是地面真相分布时)
在分类任务中,我们通常使用CE(P,Q)
而不是CE(Q,P)
。
为什么我们不使用CE(Q,P)
?
KLD(P||Q)
与KLD(Q||P)
不同,我认为CE(Q,P)
可以帮助CE(P,Q)
做不到。
我想念什么?