应用错误收集

在多类分类的情况下应如何处理不平衡类

时间：2019-01-04 12:00:40

标签： machine-learning data-analysis

我有一个数据集，该数据集由用户票证组成，用户票证的模式是随机的，其中包含约56个列，它是文本数据。我的任务是创建一个模型并对其进行训练，以识别并预测票证所属的类别，我们在那里拥有100多个类别。假设类别A的计数是70,000，其他类别的计数是50,0000，并且对于某些类别，票证数量下降到1，这是不平衡的数据吗？如果是这样，我应该如何处理这种多类分类问题，到目前为止，我应该使用SMOTE来处理我认为是不平衡的数据，但准确性会下降。在这种情况下我该怎么办？

我已经尝试过DecisionTree分类器，现在致力于Logisitic回归。

1 个答案:

答案 0 :(得分：0)

1）在这种情况下（数据高度不平衡），使用F1评分作为评估指标。

2）在train_test拆分时使用分层抽样。

3）尝试使用一个vs其余分类器。

4）使用xgboost，lightgbm和catboost之类的算法。