二进制分类:如果我最关心的类只是数据的一小部分怎么办?

时间:2013-09-18 09:01:05

标签: machine-learning data-mining

我正在研究二进制分类问题。说A级和B级。 但问题是A和B的先验分布类似于90%和10%。因此我尝试过的大多数分类算法都倾向于对A类的大多数情况进行分类,尽管0/1的​​准确度很高,但B级的类精度和召回是可怕的。我怎么能改变这个?

2 个答案:

答案 0 :(得分:5)

有两种基本方法:

  • 对较小的类进行过采样(重复的矢量使得比例更加相等,您也可以对这些数据应用一些小噪声以获得更多“有价值的”数据)
  • 使用您的模型支持的某种类加权方案

特别是,看看the exact problem for Support Vector Machines

还有一件事 - 构建了一些评估措施来处理这种不成比例,在MCC(Mathews Correlation Coefficient)中可以用来评估非比例数据的模型质量。

答案 1 :(得分:1)

This research article还定义了一些通用的类权重方案,您可以将它们作为训练标准纳入您首选的学习算法中。

在基于成本的类加权中,您更新学习算法以使用“按原样”数据处理训练过程中的不均匀类,而采样则涉及数据级方法。

上述文章中提出的一些加权方案将两个类的准确性视为同等重要,而另一些加权方案则将少数类的准确性视为比多数类准确性更重要。