我有一个数据集,该数据集由用户票证组成,用户票证的模式是随机的,其中包含约56个列,它是文本数据。我的任务是创建一个模型并对其进行训练,以识别并预测票证所属的类别,我们在那里拥有100多个类别。假设类别A的计数是70,000,其他类别的计数是50,0000,并且对于某些类别,票证数量下降到1,这是不平衡的数据吗?如果是这样,我应该如何处理这种多类分类问题,到目前为止,我应该使用SMOTE来处理我认为是不平衡的数据,但准确性会下降。在这种情况下我该怎么办?
我已经尝试过DecisionTree分类器,现在致力于Logisitic回归。
答案 0 :(得分:0)
1)在这种情况下(数据高度不平衡),使用F1评分作为评估指标。
2)在train_test拆分时使用分层抽样。
3)尝试使用一个vs其余分类器。
4)使用xgboost,lightgbm和catboost之类的算法。