数学上如何将分类结果与聚类结果进行比较

时间:2014-04-17 20:04:17

标签: algorithm binary machine-learning classification cluster-analysis

是否有一种标准方法可以将分类算法的结果(准确性)与聚类算法进行比较?我的数据只有两个真正的标签。当我对其运行二进制分类时,很容易检查准确性,但是如果我运行聚类,我要求它将数据聚类成5组,我如何检查准确性并将其与二进制分类进行比较。我知道聚类不适合(两个标签)数据,但如何用数学方法证明这一点?

2 个答案:

答案 0 :(得分:1)

聚类成两个以上的聚类是进行2级分类的一种方法(只需选择哪个标签在每个聚类中更常见,作为聚类的预测标签)。然而,这是一种非常奇怪的方法,因为它会在计算聚类之后忽略标签。监督学习(即分类)提供了更强大的工具,如随机森林进行分类。

答案 1 :(得分:0)

不要将聚类视为分类

他们的目标非常不同,实际上不应该进行比较。分类是关于再现已知标签,你需要注意过度拟合,训练/测试分裂等。另一方面,聚类是探索。任何真正的探索性方法 最终都找不到任何东西,或者只会产生明显的结果。

通过尝试以与分类相同的方式对其进行评估,您可以过度使用"聚类方法产生明显的,如果有的话。

相反,通过查看结果来评估群集。如果 从结果中学习了,那就很好了。如果没有,请再试一次。

不要试图在所有内容上加上一个数字

不仅有黑色,白色和50种灰色。将所有内容都放在一个数字中就是对世界的灰度视图......它很受欢迎(所以#34;善与恶"思考);但在科学方面我们应该做得更好。