我有一个由大约30个特征组成的数据集,除了一个是相似的,一个是一个类别(生成集群的预处理步骤的结果),所有这些特征都是
每个群集通常是类似数字值的类似功能集,但通常也有一些异常值 - 见下文。
例如: - 标记为A,B,C的功能...等等
注意:我已将数据中的NAN转换为数字0。
A B C D E F G H …> Cluster
78 0 0 67 48 35 0 0 1
0 67 0 66 45 35 0 0 1
0 0 0 68 44 38 0 0 1
0 0 0 66 43 36 0 0 1
78 50 67 0 0 0 0 0 2
75 55 60 0 0 0 0 0 2
77 54 61 0 0 78 0 0 2
问题:我需要能够提供新功能集(单行)并预测群集编号。对于这项任务,最好的分类算法是什么,因为数据中存在这些异常值并且大多数类似?
答案 0 :(得分:0)
Thx @pault指针指向: "计算新行和每个聚类之间的欧几里德距离(可能是点的质心)并将其分类到最近的聚类。"