克利夫兰数据集分类的平衡问题

时间:2019-07-23 20:41:55

标签: machine-learning scikit-learn classification multilabel-classification multiclass-classification

我质疑著名的克利夫兰心脏病数据集标记其对象here

的方式

此数据集非常不平衡(许多“无病”类别的对象)。我注意到许多使用此数据集的论文都将所有其他类别组合在一起,并将其简化为二元分类(疾病与无疾病)

还有其他方法可以解决这种不平衡的类问题,而不是减少类的数量以从分类器中获得良好的结果吗?

1 个答案:

答案 0 :(得分:0)

通常来说,在处理非平衡数据集时,应使用非监督学习方法。

您可以使用多元正态分布。 在您的情况下,如果一个班级有很多元素,而另一班级只有很少的元素,那么监督学习方法是不合适的。因此,作为一种非监督机器学习方法的多元正态分布可能是解决方案。该算法从数据中学习并找到定义数据的值(即数据中最重要的部分,此处为“无病”情况)。一旦输出这些值,就可以搜索不适合它们的元素,这些元素就是所谓的“异常元素”或“异常”。在您的情况下,这些是“疾病”个体。