我想从不平衡数据集中训练张量流DNNClassifier模型。每个样本都有一个“质量”值,该值表示样本的相对相关性。我认为我可以用权重来表示这种相关性。我读过权重功能乘以损失。在这种情况下,“好”样品的重量可能较低。是真的吗?
答案 0 :(得分:0)
“好的样本”是什么意思?在不平衡的情况下,您将有两种样本,它们的数量更多而数量更少。
较多者的权重应减小,较少者的权重应增大。我们基本上是通过扩大损失来使模型更多地关注少量样本。
答案 1 :(得分:0)
正如Pankaj Kabra正确指出的那样,不清楚“好”样本的含义。如果您想给他们更多的重要性,您应该给这些例子更多的权重。相反,如果这些是数量最多的样本,并且您不希望网络仅因为样本数量过多而偏向它们,那么您就需要对它们进行加权。
最经典的方法有两种:
w_class = 1.0/(number_of_samples_for_this_class)
。