K-均值聚类在名义数据上吗?

时间:2019-03-22 13:51:59

标签: cluster-analysis k-means

我正在对不同程度(例如低,中和高)的某些数据点执行聚类。是否建议将它们转换为低1,中2,高3的数字并直接应用k均值,还是应该使用其他任何方法?

我的表现是这样的,但并非总是能得到良好的结果。有时它会给出很好的结果,但有时却没有。

2 个答案:

答案 0 :(得分:0)

只要将连续数据视为离散且不连续,就可以将连续数据转换为离散数据。现在,k-means本质上仅适用于连续数据。因此,我认为,更好的选择是使用k-prototypesk-modes之类的算法。 k-prototype适用于连续数据和分类数据,而k模式仅适用于分类数据。

答案 1 :(得分:0)

K均值对此类数据没有多大意义。

它是为连续变量设计的。赋予名称的平均值有意义并最小化最小二乘误差

对于分类数据,请使用 k-medoids或k-modes

此外,您需要仔细考虑变量的重要性。

请注意,在分类/离散数据上,优化算法经常陷入局部最优状态似乎是一个问题:因为没有“连续”路径可以改善结果。因此,结果有时是好的,有时是不好的。然后,您可以增加重新启动的次数,但是随着复杂度的增加,幸运猜测的机会会减少...