我正在研究一个文件来预测诊断为糖尿病的患者的治疗方法(水平从1到10)。 有8种不同的治疗建议(256种可能的结果),我需要对它们进行聚类(我从原始文件中得到21个属性)。所以我用SimpleKMean使用了19 k。问题是我为某些集群分配了“无类”;
此外,当我将其分类以进行评估时,我遇到了同样的问题,“没有集群”分配给类,而且我也丢失了一些数据。例如,有940个实例,但我在分类后有876个。
但混淆矩阵显示确切的数字。我不知道它是否相关,但它可能有助于解决这个问题。我使用了AddCluster方法,因为我的所有属性都是数字,我需要原始文件中的一个附加列才能显示“Treatment Cluster”(第22个属性)。所以我使用这个新的附加属性运行SimpleKMean和Cross-Validation,这也是我的类。
非常感谢你的帮助!!!
答案 0 :(得分:2)
似乎一个类只能应用于零个或一个集群。结果,例如,类9被应用于集群7,但集群8中的所有类9值都未被分配,因为它被分配给另一个类。 SimpleKMeans模型似乎分配了对提供的数据生成最小分类错误的集群。
在here之前提出了这个问题,其中解决方案似乎覆盖了评估模型以允许一对多分配。