有人可以帮我解决这个问题吗?
我正在学习KMeans聚类概念。如果变量是连续的,我知道如何聚类。但是这个数据集包含分类/离散变量,如性别和邮政编码。
Sno Age Gender Zip Salary
1 26 0 9822 100
2 38 1 9822 700
3 19 1 9822 100
4 64 0 9810 2500
5 53 1 9810 1200
6 75 1 9810 1800
7 19 0 9822 75
8 36 1 9822 350
9 42 1 9875 1800
10 41 0 9875 750
答案 0 :(得分:0)
K-Means仅适用于数字数据。
K-means对分类数据失败,因为取分类数据的平均值根本没有意义。距离也不远。有些人使用一个热编码在K-means上运行数据。但是,这也没有给出正确的集群。
要解决这类问题,你可以看一下K-Means的另一种变体叫做K-Prototype算法,它适用于分类和数值数据的混合。
查看https://pypi.python.org/pypi/kmodes/
此链接包含使用此算法的纸张和python包。它也很容易理解。