混合数据类型使用哪种分析方法

时间:2019-09-19 01:29:12

标签: cluster-analysis

我正在尝试对包含两个变量的数据集进行聚类:

一个分类变量具有800个不同级别的id,另一个分类变量用于衡量性能。

我知道K均值由于绝对值而不能工作。

我应该使用K模式吗?

任何建议都会有很大帮助。

1 个答案:

答案 0 :(得分:0)

不要按数据类型选择方法。

选择一种方法,因为它可以解决问题,或者可能解决的方法与您的问题完全不同。

如果您有一个id列,则几乎总是不能使用它。因此,您只有一个连续变量。使用内核密度估计而不是任何聚类可能更合适。您也可以使用低密度区域根据KDE分割数据。