我有一个数据集(11000 x 117),其中的响应变量具有多个类别。
这是一个类分布图:
某些类别在整个数据集中只有1个样本,而某些类别有2、3和5。
我尝试过:
SMOTE:Smote采样,它会为每个类别生成样本(频率为100,11000x117),但模型在此类采样数据集上的表现非常差。可能是因为SMOTE在飞机上为样本生成了新点:SMOTE
downSample和upSample :为每个课程生成一个样本,这不足以进行训练。
如您所见,这些类高度不平衡。还有其他方法可以做到吗?
我正在R中使用Keras网络来训练神经网络。