张量流不平衡模型的权重策略

时间:2019-11-02 14:14:52

标签: tensorflow classification weighted

我想从不平衡数据集中训练张量流DNNClassifier模型。每个样本都有一个“质量”值,该值表示样本的相对相关性。我认为我可以用权重来表示这种相关性。我读过权重功能乘以损失。在这种情况下,“好”样品的重量可能较低。是真的吗?

2 个答案:

答案 0 :(得分:0)

“好的样本”是什么意思?在不平衡的情况下,您将有两种样本,它们的数量更多而数量更少。

较多者的权重应减小,较少者的权重应增大。我们基本上是通过扩大损失来使模型更多地关注少量样本。

答案 1 :(得分:0)

正如Pankaj Kabra正确指出的那样,不清楚“好”样本的含义。如果您想给他们更多的重要性,您应该给这些例子更多的权重。相反,如果这些是数量最多的样本,并且您不希望网络仅因为样本数量过多而偏向它们,那么您就需要对它们进行加权。

最经典的方法有两种:

  1. 根据类别对每个样本的重量损失进行多重处理。这意味着如果您要评估更多类别的损失,则必须将其值乘以较小的权重;反之亦然,如果您要处理的课程最小,那么权重必须更大。例如,您可以使用按以下方式计算的权重:w_class = 1.0/(number_of_samples_for_this_class)
  2. 平衡小批次的样本,其中两个类别的数字相同。