我的疾病数据集看起来像这样 -
2 21 24 36
2 21 25
3 12 15 19
第一个属性是疾病(例如感冒),其他属性是疾病的症状。
我如何形成群集?
可以将第一个属性标记为已形成的群集吗?
或者我还能做些什么?在每个数据集上单独应用k均值? 或者我应该进行分类数据挖掘?
答案 0 :(得分:0)
假设您正在尝试聚集"疾病"根据他们的症状"并且想在症状数据上使用Kmeans,然后您可以使用疾病标签作为分类器的一种形式,以便判断您的聚类的纯度(又名相对"善良")。
由于您说有37种症状和9种疾病,因此您的数据集中的每个实例都将是37维以计算平均值,并且每个实例也将被分配到1-9之间的类别标签(疾病)。 / p>
现在你所需要的只是一个简单的Kmeans实现,你应该没问题。您可以使用 a priori 的疾病标签,然后了解" good"结果你的集群了。有关计算纯度的详细信息,请参阅here;有关更多信息,请参阅this SO question。