我在非常不平衡的训练数据集上训练SGD神经网络分类器。为了补偿未表示的类,我对一组随机抽样的s.t进行实际训练。较少经常挑选的示例。
选择后者集的音量与将运行的时期数量的原则性方法是什么?建议非常赞赏。
答案 0 :(得分:0)
我对一组随机抽样的s.t进行实际训练。较少采用较少示例的课程
随机抽样并不能保证代表性不足的阶层有更高的代表性;顾名思义,选择是随机的。
这个问题的答案范围很广。
在确保良好的模型性能的同时,增加来自代表性不足的类的代表性没有灵丹妙药的方法。一些基本的尝试是,
回答你关于训练时代数量的问题:
通过上述方法之一获得平衡数据集后,就可以对其进行训练,就好像它是一个平衡数据集一样。
<强> P.S。强> 请注意,上述内容并不是解决偏斜数据集的唯一方法。还有更多因素,如评估指标和尝试不同的假设。