tensorflow - 张量流不平衡模型的权重策略

时间：2019-11-02 14:14:52

标签： tensorflow classification weighted

我想从不平衡数据集中训练张量流DNNClassifier模型。每个样本都有一个“质量”值，该值表示样本的相对相关性。我认为我可以用权重来表示这种相关性。我读过权重功能乘以损失。在这种情况下，“好”样品的重量可能较低。是真的吗？

答案 0 :(得分：0)

“好的样本”是什么意思？在不平衡的情况下，您将有两种样本，它们的数量更多而数量更少。

较多者的权重应减小，较少者的权重应增大。我们基本上是通过扩大损失来使模型更多地关注少量样本。

答案 1 :(得分：0)

正如Pankaj Kabra正确指出的那样，不清楚“好”样本的含义。如果您想给他们更多的重要性，您应该给这些例子更多的权重。相反，如果这些是数量最多的样本，并且您不希望网络仅因为样本数量过多而偏向它们，那么您就需要对它们进行加权。

最经典的方法有两种：

根据类别对每个样本的重量损失进行多重处理。这意味着如果您要评估更多类别的损失，则必须将其值乘以较小的权重；反之亦然，如果您要处理的课程最小，那么权重必须更大。例如，您可以使用按以下方式计算的权重：w_class = 1.0/(number_of_samples_for_this_class)。
平衡小批次的样本，其中两个类别的数字相同。