对不均匀分布的样本进行抽样培训

时间:2016-11-28 20:33:18

标签: random machine-learning neural-network training-data

我在非常不平衡的训练数据集上训练SGD神经网络分类器。为了补偿未表示的类,我对一组随机抽样的s.t进行实际训练。较少经常挑选的示例。

选择后者集的音量与将运行的时期数量的原则性方法是什么?建议非常赞赏。

1 个答案:

答案 0 :(得分:0)

  

我对一组随机抽样的s.t进行实际训练。较少采用较少示例的课程

随机抽样并不能保证代表性不足的阶层有更高的代表性;顾名思义,选择是随机的。

这个问题的答案范围很广。

在确保良好的模型性能的同时,增加来自代表性不足的类的代表性没有灵丹妙药的方法。一些基本的尝试是,

  1. 正在抽样:删除一些过度代表的实例(假设您有足够的数据)
  2. 过度采样:制作代表不足的实例的副本
  3. 回答你关于训练时代数量的问题:

    通过上述方法之一获得平衡数据集后,就可以对其进行训练,就好像它是一个平衡数据集一样。

    <强> P.S。 请注意,上述内容并不是解决偏斜数据集的唯一方法。还有更多因素,如评估指标和尝试不同的假设。