最适合包含10维数值数组的数据集的聚类方法

时间:2016-03-07 13:14:45

标签: python scikit-learn cluster-analysis k-means

我有一个以下结构的数据集(~4k样本):

样本类型:字符串 - 非常通常
样本子类型:
字符串 样品型号:编号 - 可以是无
签名:数字数组[10]
sampleID:string - 唯一ID

我想根据“签名”对样本进行聚类(我有一个测量一个签名与另一个签名之间“距离”的函数)。
因此,当我遇到一个新的签名时,我将成为能够告诉样本属于哪种类型/子类型 我应该使用哪种算法?

P.S。 (我正在使用python和scikit-learn),我还需要以某种方式可视化结果。

1 个答案:

答案 0 :(得分:0)

由于你已经有了一个距离函数,并且你的数据集很小,所以只需使用所有聚类算法的祖父HAC。