我质疑著名的克利夫兰心脏病数据集标记其对象here
的方式此数据集非常不平衡(许多“无病”类别的对象)。我注意到许多使用此数据集的论文都将所有其他类别组合在一起,并将其简化为二元分类(疾病与无疾病)
还有其他方法可以解决这种不平衡的类问题,而不是减少类的数量以从分类器中获得良好的结果吗?
答案 0 :(得分:0)
通常来说,在处理非平衡数据集时,应使用非监督学习方法。
您可以使用多元正态分布。 在您的情况下,如果一个班级有很多元素,而另一班级只有很少的元素,那么监督学习方法是不合适的。因此,作为一种非监督机器学习方法的多元正态分布可能是解决方案。该算法从数据中学习并找到定义数据的值(即数据中最重要的部分,此处为“无病”情况)。一旦输出这些值,就可以搜索不适合它们的元素,这些元素就是所谓的“异常元素”或“异常”。在您的情况下,这些是“疾病”个体。