我想用k-means来聚集我的结果,但我有很多疑问。 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans
我的输入数据如下所示:
ID ABC XYZ UVW MSE
10 A X U 102000
12 B Y V 9000
是否可以使用K-Means聚类不同类型的输入数据?就像我的案例中的charakters和数字一样?
K-means为集群过程选择一个随机中心。如果我经常运行聚类,我的结果会改变,还是输出结果稳定?
我想知道,哪个ID在哪个群集中。我如何从软件中获取这些信息?
编辑:
如果我只聚类我的MSE,之后我检查哪些属性受影响,这个解决方案是否有意义?
答案 0 :(得分:0)
K-means尝试最小化方差(=平方误差)。
abc
和def
的平方误差是多少?
仅用于连续数据。并且不要期望它能够做出魔法,你得到的通常只是你所寻找的非常接近的东西。多次运行通常会给你不同的结果,因为没有好的'结果