应用错误收集

时间：2014-04-17 20:04:17

标签： algorithm binary machine-learning classification cluster-analysis

是否有一种标准方法可以将分类算法的结果（准确性）与聚类算法进行比较？我的数据只有两个真正的标签。当我对其运行二进制分类时，很容易检查准确性，但是如果我运行聚类，我要求它将数据聚类成5组，我如何检查准确性并将其与二进制分类进行比较。我知道聚类不适合（两个标签）数据，但如何用数学方法证明这一点？

答案 0 :(得分：1)

聚类成两个以上的聚类是进行2级分类的一种方法（只需选择哪个标签在每个聚类中更常见，作为聚类的预测标签）。然而，这是一种非常奇怪的方法，因为它会在计算聚类之后忽略标签。监督学习（即分类）提供了更强大的工具，如随机森林进行分类。

答案 1 :(得分：0)

不要将聚类视为分类

他们的目标非常不同，实际上不应该进行比较。分类是关于再现已知标签，你需要注意过度拟合，训练/测试分裂等。另一方面，聚类是探索。任何真正的探索性方法最终都找不到任何东西，或者只会产生明显的结果。

通过尝试以与分类相同的方式对其进行评估，您可以过度使用＆＃34;聚类方法产生明显的，如果有的话。

相反，通过查看结果来评估群集。如果你 从结果中学习了，那就很好了。如果没有，请再试一次。

不仅有黑色，白色和50种灰色。将所有内容都放在一个数字中就是对世界的灰度视图......它很受欢迎（所以＃34;善与恶＆＃34;思考）;但在科学方面我们应该做得更好。