数据的分类算法只是大部分一致的

时间:2018-01-28 21:52:00

标签: python python-3.x machine-learning classification

我有一个由大约30个特征组成的数据集,除了一个是相似的,一个是一个类别(生成集群的预处理步骤的结果),所有这些特征都是

每个群集通常是类似数字值的类似功能集,但通常也有一些异常值 - 见下文。

例如: - 标记为A,B,C的功能...等等

注意:我已将数据中的NAN转换为数字0。

A   B   C   D   E   F   G   H   …>  Cluster 
78  0   0   67  48  35  0   0       1   
0   67  0   66  45  35  0   0       1   
0   0   0   68  44  38  0   0       1   
0   0   0   66  43  36  0   0       1   
78  50  67  0   0   0   0   0       2   
75  55  60  0   0   0   0   0       2   
77  54  61  0   0   78  0   0       2   

问题:我需要能够提供新功能集(单行)并预测群集编号。对于这项任务,最好的分类算法是什么,因为数据中存在这些异常值并且大多数类似?

1 个答案:

答案 0 :(得分:0)

Thx @pault指针指向: "计算新行和每个聚类之间的欧几里德距离(可能是点的质心)并将其分类到最近的聚类。"