我有一个以下结构的数据集(~4k样本):
样本类型:字符串 - 非常通常
样本子类型:
字符串
样品型号:编号 - 可以是无
签名:数字数组[10]
sampleID:string - 唯一ID
我想根据“签名”对样本进行聚类(我有一个测量一个签名与另一个签名之间“距离”的函数)。
因此,当我遇到一个新的签名时,我将成为能够告诉样本属于哪种类型/子类型
我应该使用哪种算法?
P.S。 (我正在使用python和scikit-learn),我还需要以某种方式可视化结果。
答案 0 :(得分:0)
由于你已经有了一个距离函数,并且你的数据集很小,所以只需使用所有聚类算法的祖父HAC。