应用错误收集

时间：2016-11-28 20:33:18

标签： random machine-learning neural-network training-data

我在非常不平衡的训练数据集上训练SGD神经网络分类器。为了补偿未表示的类，我对一组随机抽样的s.t进行实际训练。较少经常挑选的示例。

选择后者集的音量与将运行的时期数量的原则性方法是什么？建议非常赞赏。

答案 0 :(得分：0)

我对一组随机抽样的s.t进行实际训练。较少采用较少示例的课程

随机抽样并不能保证代表性不足的阶层有更高的代表性;顾名思义，选择是随机的。

这个问题的答案范围很广。

在确保良好的模型性能的同时，增加来自代表性不足的类的代表性没有灵丹妙药的方法。一些基本的尝试是，

回答你关于训练时代数量的问题：

通过上述方法之一获得平衡数据集后，就可以对其进行训练，就好像它是一个平衡数据集一样。

<强> P.S。请注意，上述内容并不是解决偏斜数据集的唯一方法。还有更多因素，如评估指标和尝试不同的假设。