我的数据集包含150个实际分为3组的数据。每个小组都有自己的标签。
我使用K-means算法进行聚类过程以对数据进行分组。
我需要分配由K-means流程创建的每个组的标签。所以我可以将K-means的结果与数据训练进行比较。
任何人都可以帮忙解释如何确定每个组的标签?
答案 0 :(得分:0)
阅读维基百科中的cluster evaluation。
没有聚类算法会将诸如iris_setosa
之类的标签分配给群集,除非您以某种方式为聚类算法提供标签(但实际上它不再是聚类,而是分类)。
因此,您只能使用first_cluster
,second_cluster
,third_cluster
类型的标签。
与原始数据集相比,提出了各种措施来比较集群的结构。但通常与原始标签不会有1:1的对应关系。