我有一个具有3个类的多类分类问题(匿名特征)。类1与其他类不同但我在将类2与类0分开时遇到问题。(大多数类2被预测为类0 )。
由于这两个类之间存在不平衡(3:1)。我尝试给第2类赋予权重,但是模型只是正确地对某些类2进行了分类,但它现在也将类0预测为类2,给了我当没有给出权重时,准确度相同。
那么关于如何分开这两个类的任何想法?我已经尝试过NN,oneVSrest,也尝试了一些堆叠而没有显着增益。
答案 0 :(得分:0)
我曾经面对过不平衡的数据集。我使用了sklearn的resample函数,你可以从here阅读更多内容。该功能将从少数人随机复制到上采样。根据我的经验,这种方法只是稍微改进了模型,我认为你应该在互联网上找到数据添加到你的数据集中。