K表示对异构数据进行聚类

时间:2015-03-05 05:32:27

标签: java data-mining k-means

我的疾病数据集看起来像这样 -

2 21 24 36   
2 21 25    
3 12 15 19  

第一个属性是疾病(例如感冒),其他属性是疾病的症状。

我如何形成群集?

可以将第一个属性标记为已形成的群集吗?

或者我还能做些什么?在每个数据集上单独应用k均值? 或者我应该进行分类数据挖掘?

1 个答案:

答案 0 :(得分:0)

假设您正在尝试聚集"疾病"根据他们的症状"并且想在症状数据上使用Kmeans,然后您可以使用疾病标签作为分类器的一种形式,以便判断您的聚类的纯度(又名相对"善良")。

由于您说有37种症状和9种疾病,因此您的数据集中的每个实例都将是37维以计算平均值,并且每个实例也将被分配到1-9之间的类别标签(疾病)。 / p>

现在你所需要的只是一个简单的Kmeans实现,你应该没问题。您可以使用 a priori 的疾病标签,然后了解" good"结果你的集群了。有关计算纯度的详细信息,请参阅here;有关更多信息,请参阅this SO question