在多类分类的情况下应如何处理不平衡类

时间:2019-01-04 12:00:40

标签: machine-learning data-analysis

我有一个数据集,该数据集由用户票证组成,用户票证的模式是随机的,其中包含约56个列,它是文本数据。我的任务是创建一个模型并对其进行训练,以识别并预测票证所属的类别,我们在那里拥有100多个类别。假设类别A的计数是70,000,其他类别的计数是50,0000,并且对于某些类别,票证数量下降到1,这是不平衡的数据吗?如果是这样,我应该如何处理这种多类分类问题,到目前为止,我应该使用SMOTE来处理我认为是不平衡的数据,但准确性会下降。在这种情况下我该怎么办?

我已经尝试过DecisionTree分类器,现在致力于Logisitic回归。

1 个答案:

答案 0 :(得分:0)

1)在这种情况下(数据高度不平衡),使用F1评分作为评估指标。

2)在train_test拆分时使用分层抽样。

3)尝试使用一个vs其余分类器。

4)使用xgboost,lightgbm和catboost之类的算法。