pytorch 中的加权随机采样器

时间:2021-07-25 02:52:37

标签: computer-vision pytorch

我是采样器的新手,不明白为什么我们应该使用加权随机采样器。谁能给我解释一下?另外,我们应该对验证集使用加权随机采样器吗?

1 个答案:

答案 0 :(得分:0)

这在很大程度上是一个与 PyTorch 无关的问题,因此可能看起来有点离题。

做一个分类任务,你的数据集可能包含某个类的更多实例,使得这个类被过度代表。这通常会导致一些问题。事实上,在训练过程中,您的模型会从一个类中获得比其他类更多的实例。从这个意义上说,它可能会偏向于那个杰出的阶层。

为了解决这个问题,您可以使用加权采样器来有效地平衡不等数量的实例,这样平均,在一个时期内,模型将看到属于每个你的课。这将允许针对您的班级进行平衡学习,独立于您可能每个班级有不同数量的实例的事实。

为了回答您的第二个问题,我认为您不应该在验证中使用加权采样器。无需采用特定的抽样策略。验证的重点是查看您的固定模型在看不见的数据上的表现。与测试集类似,您将无法访问类统计数据以实际使用加权采样器。