应用错误收集

时间：2013-09-18 09:01:05

标签： machine-learning data-mining

我正在研究二进制分类问题。说A级和B级。但问题是A和B的先验分布类似于90％和10％。因此我尝试过的大多数分类算法都倾向于对A类的大多数情况进行分类，尽管0/1的准确度很高，但B级的类精度和召回是可怕的。我怎么能改变这个？

答案 0 :(得分：5)

有两种基本方法：

还有一件事 - 构建了一些评估措施来处理这种不成比例，在MCC（Mathews Correlation Coefficient）中可以用来评估非比例数据的模型质量。

答案 1 :(得分：1)

This research article还定义了一些通用的类权重方案，您可以将它们作为训练标准纳入您首选的学习算法中。

在基于成本的类加权中，您更新学习算法以使用“按原样”数据处理训练过程中的不均匀类，而采样则涉及数据级方法。

上述文章中提出的一些加权方案将两个类的准确性视为同等重要，而另一些加权方案则将少数类的准确性视为比多数类准确性更重要。