混合数据类型中的聚类

时间:2019-07-02 04:20:14

标签: cluster-analysis k-means euclidean-distance unsupervised-learning

为什么我们不能将Eculidean距离用于分类变量的聚类,为什么我们将Gower距离用于分类变量的聚类。我只是在寻找一种简单的逻辑,并希望在两者之间进行工作以区别类别变量。

我试图在google搜索中找到相同的内容,但无法找到任何具体且合乎逻辑的内容。

1 个答案:

答案 0 :(得分:1)

如果分类数据本质上是ordinal,则可以使用欧几里得距离,如果您对数据进行合理编码,则可以找到实际上具有某种意义的欧几里得距离。例如,假设您正在处理以李克特量表进行的调查结果,并且您的级别为“很好”,“很好”,“中性”,“不好”和“非常不好”,并且如果选择将其编码为5,4、3、2和1分别计算它们之间的距离,它们实际上是有道理的(不好和很好之间的距离是3,这是有意义的)。

但是,另一方面,如果您的变量是分类变量,但是nominal本质上没有固有的顺序,那么计算距离就没有意义。例如,假设您的特征是颜色,并且它们的取值分别为红色,蓝色,绿色和粉红色。并将它们分别编码为4,3,2和1。现在,即使您发现绿色和红色之间的距离并将其报告为2,它实际上也没有任何意义,就像您无法像红色将绿色与绿色相差2个单位一样。

对于名义变量,如果您有混合数据,则可以使用Hamming distanceGower distanceGower distance in R

希望这会有所帮助!