比方说,我在训练中有两个类别,即A类(100个样本)和B类(100个样本),但是在测试时,A类有(1000个样本)而B类有(100个样本)。 我应该如何计算和使用加权CrossEntropy损失的权重。如果将其设置为0.5、0.5,我会感到困惑。我该如何表示真实分布?
答案 0 :(得分:0)
最佳设置通常没有权重。
您显然在类分配之间存在偏差(1:1与10:1)。 如果您无能为力,则将A类的权重设置为10,将B的权重设置为1以正确表示最终分布。它们不必加1,如果使用较高的值(这只是损失成分的乘数),则可以降低学习率。
这是一个粗略的修正,正确的选择是修正采样,以使您在训练输入集中也具有相同的不平衡(并且它们应该与您在实践中看到的相匹配)。
如果在实践中在B中犯错误比在A中犯错误要严重得多,那么上述情况是不正确的(即,错过股票上涨只是错失的机会,但是购买股票却没有得到股票上涨)花费您的钱)。在这种情况下,您确实希望对B承担更高的罚款。