标签: cluster-analysis
我正在尝试对包含两个变量的数据集进行聚类:
一个分类变量具有800个不同级别的id,另一个分类变量用于衡量性能。
我知道K均值由于绝对值而不能工作。
我应该使用K模式吗?
任何建议都会有很大帮助。
答案 0 :(得分:0)
不要按数据类型选择方法。
选择一种方法,因为它可以解决问题,或者可能解决的方法与您的问题完全不同。
如果您有一个id列,则几乎总是不能使用它。因此,您只有一个连续变量。使用内核密度估计而不是任何聚类可能更合适。您也可以使用低密度区域根据KDE分割数据。