采样高度不平衡的多类响应变量

时间:2019-08-08 14:59:32

标签: r classification sampling multiclass-classification downsampling

我有一个数据集(11000 x 117),其中的响应变量具有多个类别。

这是一个类分布图:

enter image description here

某些类别在整个数据集中只有1个样本,而某些类别有2、3和5。

我尝试过:

SMOTE:Smote采样,它会为每个类别生成样本(频率为100,11000x117),但模型在此类采样数据集上的表现非常差。可能是因为SMOTE在飞机上为样本生成了新点:SMOTE enter image description here

downSample和upSample :为每个课程生成一个样本,这不足以进行训练。

如您所见,这些类高度不平衡。还有其他方法可以做到吗?

我正在R中使用Keras网络来训练神经网络。

0 个答案:

没有答案