应用错误收集

混合数据类型使用哪种分析方法

时间：2019-09-19 01:29:12

标签： cluster-analysis

我正在尝试对包含两个变量的数据集进行聚类：

一个分类变量具有800个不同级别的id，另一个分类变量用于衡量性能。

我知道K均值由于绝对值而不能工作。

我应该使用K模式吗？

任何建议都会有很大帮助。

1 个答案:

答案 0 :(得分：0)

不要按数据类型选择方法。

选择一种方法，因为它可以解决问题，或者可能解决的方法与您的问题完全不同。

如果您有一个id列，则几乎总是不能使用它。因此，您只有一个连续变量。使用内核密度估计而不是任何聚类可能更合适。您也可以使用低密度区域根据KDE分割数据。