我的数据存在问题
这是我的医疗保健数据库
(名称,值1,值2,值3,值4)
Jhon 10,20,30,40
Jhon 9,12,21,33
Noah 8,22,18,10
Anna 9,19,29,32
Clark 11,4,17,20
在医疗保健数据库中,一个人可能生病两次,三次或更多次,因为你可以看到我的数据库的例子有两个jhon有两个记录,因为他生病了两次
我使用k-means的目的是让他们的成员获得两个集群(集群1:集群1,集群2:集团2)
我希望获得这样的输出:
第1组:jhon,clark
第2组:诺亚,安娜,jhon
你看到有两个jhon,一个成员可以是1组和2组,所以我怎么能解决这个问题?
答案 0 :(得分:0)
K-means通过成对步骤之间的迭代来工作。你基本上是在
之间交替假设您知道实例到群集的映射,并计算群集中心
假设您了解群集中心,将实例分配给群集
因此,如果您有约束,例如,所有jhon(原文如此)应该属于同一个集群,您可以将其合并到第2步:您需要找到同时分配所有jhon(sh)的集群最有可能的。