K-Means中具有相同值的多个对象

时间:2016-02-10 10:31:17

标签: machine-learning cluster-analysis k-means

我的数据存在问题

这是我的医疗保健数据库

(名称,值1,值2,值3,值4)

Jhon 10,20,30,40

Jhon 9,12,21,33

Noah 8,22,18,10

Anna 9,19,29,32

Clark 11,4,17,20

在医疗保健数据库中,一个人可能生病两次,三次或更多次,因为你可以看到我的数据库的例子有两个jhon有两个记录,因为他生病了两次

我使用k-means的目的是让他们的成员获得两个集群(集群1:集群1,集群2:集团2)

我希望获得这样的输出:

第1组:jhon,clark

第2组:诺亚,安娜,jhon

你看到有两个jhon,一个成员可以是1组和2组,所以我怎么能解决这个问题?

1 个答案:

答案 0 :(得分:0)

K-means通过成对步骤之间的迭代来工作。你基本上是在

之间交替
  1. 假设您知道实例到群集的映射,并计算群集中心

  2. 假设您了解群集中心,将实例分配给群集

  3. 因此,如果您有约束,例如,所有jhon(原文如此)应该属于同一个集群,您可以将其合并到第2步:您需要找到同时分配所有jhon(sh)的集群最有可能的。

    有关详细信息,请参阅Constrained k-means clustering with background