KMeans聚类以下混合变量数据

时间:2016-09-12 06:18:47

标签: k-means categorical-data

有人可以帮我解决这个问题吗?

我正在学习KMeans聚类概念。如果变量是连续的,我知道如何聚类。但是这个数据集包含分类/离散变量,如性别和邮政编码。

Sno Age Gender Zip  Salary
1   26  0   9822    100
2   38  1   9822    700
3   19  1   9822    100
4   64  0   9810    2500    
5   53  1   9810    1200
6   75  1   9810    1800
7   19  0   9822    75
8   36  1   9822    350
9   42  1   9875    1800
10  41  0   9875    750

1 个答案:

答案 0 :(得分:0)

K-Means仅适用于数字数据。

K-means对分类数据失败,因为取分类数据的平均值根本没有意义。距离也不远。有些人使用一个热编码在K-means上运行数据。但是,这也没有给出正确的集群。

要解决这类问题,你可以看一下K-Means的另一种变体叫做K-Prototype算法,它适用于分类和数值数据的混合。

查看https://pypi.python.org/pypi/kmodes/

此链接包含使用此算法的纸张和python包。它也很容易理解。