应用错误收集

时间：2018-03-14 06:46:43

标签： r validation cluster-analysis

我有聚类混合数据集包含数值和分类特征（heart dataset from UCI）使用两种聚类方法k-prototype和PAM

我的问题是：如何验证群集的结果？

我在R中找到了不同的方法，例如Rand Index，SSE，Purity，clValid，pvclust，它们都与数字数据一起使用。

在混合数据的情况下是否可以使用任何方法

答案 0 :(得分：0)

是的，您可以将聚类结果与CV索引进行比较。更多你可以读这个 Cv index CV公式包含用于分类属性的CU（类别实用程序）和用于数字属性的变量

答案 1 :(得分：0)

您仍然可以使用调整后的兰特指数。该索引仅比较两个分区。如果分区是根据分类或连续特征构建的，则无关紧要

答案 2 :(得分：0)

您特别研究了多少观察（n）和维度（d）？可能你处于n＆gt;＆gt; d情况，但最近d＆gt;＆gt; n是一个热门话题。

变量选择需要事先完成。检查功能关联，这可能会影响您检测到的群集数。如果要素是相关的并且它们恰好是线性的，则可以使用渐变而不是两个变量。

你的问题没有绝对的答案。由于这个原因，存在许多方法。聚类本质上是探索性的。您对数据的了解越多，设计测试的效果就越好。

需要定义要测试的内容：分区的稳定性，或者群集配方的稳定性。有不同的方法来处理这些问题。对于第一个，重采样是一个关键，而对于第二个，通常使用比较索引来衡量某些分区中剩余的观察数量。