应用错误收集

克利夫兰数据集分类的平衡问题

时间：2019-07-23 20:41:55

标签： machine-learning scikit-learn classification multilabel-classification multiclass-classification

我质疑著名的克利夫兰心脏病数据集标记其对象here

的方式

此数据集非常不平衡（许多“无病”类别的对象）。我注意到许多使用此数据集的论文都将所有其他类别组合在一起，并将其简化为二元分类（疾病与无疾病）

还有其他方法可以解决这种不平衡的类问题，而不是减少类的数量以从分类器中获得良好的结果吗？

1 个答案:

答案 0 :(得分：0)

通常来说，在处理非平衡数据集时，应使用非监督学习方法。

您可以使用多元正态分布。在您的情况下，如果一个班级有很多元素，而另一班级只有很少的元素，那么监督学习方法是不合适的。因此，作为一种非监督机器学习方法的多元正态分布可能是解决方案。该算法从数据中学习并找到定义数据的值（即数据中最重要的部分，此处为“无病”情况）。一旦输出这些值，就可以搜索不适合它们的元素，这些元素就是所谓的“异常元素”或“异常”。在您的情况下，这些是“疾病”个体。