如何在数据库和使用混淆矩阵后对数据应用kmeans算法

时间:2018-01-25 14:39:35

标签: python database cluster-analysis k-means

我正在尝试对我的数据库中的数据应用K Means算法。首先,我正在采取这样的数据:

Image of my data

所以我的问题是如何将字符串列为“trash”= 1,“car”= 2“truck”= 3,以及是否可以使用所有列和值进行聚类。

2 个答案:

答案 0 :(得分:0)

您可以做的最好是使用sklearn库的标签编码器

答案 1 :(得分:0)

KMeans不需要“魔术数字”。

它需要正确的连续变量,其中 mean 是有意义的。这不是适合您数据的算法。最小化编码的“字典数字”的最小二乘不是合理的。