Question

我的疾病数据集看起来像这样 -

2 21 24 36   
2 21 25    
3 12 15 19

第一个属性是疾病（例如感冒），其他属性是疾病的症状。

我如何形成群集？

可以将第一个属性标记为已形成的群集吗？

或者我还能做些什么？在每个数据集上单独应用k均值？或者我应该进行分类数据挖掘？

Answer 1

假设您正在尝试聚集＆＃34;疾病＆＃34;根据他们的症状＆＃34;并且想在症状数据上使用Kmeans，然后您可以使用疾病标签作为分类器的一种形式，以便判断您的聚类的纯度（又名相对＆＃34;善良＆＃34;）。

由于您说有37种症状和9种疾病，因此您的数据集中的每个实例都将是37维以计算平均值，并且每个实例也将被分配到1-9之间的类别标签（疾病）。 / p>

现在你所需要的只是一个简单的Kmeans实现，你应该没问题。您可以使用 a priori 的疾病标签，然后了解＆＃34; good＆＃34;结果你的集群了。有关计算纯度的详细信息，请参阅here;有关更多信息，请参阅this SO question。