我正在研究二进制分类问题。说A级和B级。 但问题是A和B的先验分布类似于90%和10%。因此我尝试过的大多数分类算法都倾向于对A类的大多数情况进行分类,尽管0/1的准确度很高,但B级的类精度和召回是可怕的。我怎么能改变这个?
答案 0 :(得分:5)
有两种基本方法:
特别是,看看the exact problem for Support Vector Machines
还有一件事 - 构建了一些评估措施来处理这种不成比例,在MCC
(Mathews Correlation Coefficient)中可以用来评估非比例数据的模型质量。
答案 1 :(得分:1)
This research article还定义了一些通用的类权重方案,您可以将它们作为训练标准纳入您首选的学习算法中。
在基于成本的类加权中,您更新学习算法以使用“按原样”数据处理训练过程中的不均匀类,而采样则涉及数据级方法。
上述文章中提出的一些加权方案将两个类的准确性视为同等重要,而另一些加权方案则将少数类的准确性视为比多数类准确性更重要。