我有聚类混合数据集包含数值和分类特征(heart dataset from UCI)使用两种聚类方法k-prototype和PAM
我的问题是:如何验证群集的结果?
我在R中找到了不同的方法,例如Rand Index,SSE,Purity,clValid,pvclust,它们都与数字数据一起使用。
在混合数据的情况下是否可以使用任何方法
答案 0 :(得分:0)
是的,您可以将聚类结果与CV索引进行比较。更多你可以读这个 Cv index CV公式包含用于分类属性的CU(类别实用程序)和用于数字属性的变量
答案 1 :(得分:0)
您仍然可以使用调整后的兰特指数。该索引仅比较两个分区。如果分区是根据分类或连续特征构建的,则无关紧要
答案 2 :(得分:0)
您特别研究了多少观察(n)和维度(d)? 可能你处于n>> d情况,但最近d>> n是一个热门话题。
变量选择需要事先完成。检查功能关联,这可能会影响您检测到的群集数。如果要素是相关的并且它们恰好是线性的,则可以使用渐变而不是两个变量。
你的问题没有绝对的答案。由于这个原因,存在许多方法。聚类本质上是探索性的。您对数据的了解越多,设计测试的效果就越好。
需要定义要测试的内容:分区的稳定性,或者群集配方的稳定性。有不同的方法来处理这些问题。对于第一个,重采样是一个关键,而对于第二个,通常使用比较索引来衡量某些分区中剩余的观察数量。
推荐阅读:
[1] Meila,M。(2016)。比较聚类的标准。聚类分析手册。 C. Hennig,M。Meila,F。Murtagh和R. Rocci:619-635。
[2] Leisch,F。(2016)。探索群集稳定性的重采样方法。聚类分析手册。 C. Hennig,M。Meila,F。Murtagh和R. Rocci:637-652。