哪种聚类方法可以处理多维数据?

时间:2019-02-21 07:44:41

标签: machine-learning cluster-analysis k-means unsupervised-learning

对此我感到非常困惑,我是集群的新手。

最近,我制作了一个csv文件及其数据结构,如下所示: csv file

如您所见,每个元素中的值都是数组,并且有两种数组形状:[1,2]和[2,1]。简而言之,我有200个样本,每个人都有400个功能,但是每个功能的类型都是数组。

那么,Kmeans是可以处理它还是有其他方法可以对此类数据进行聚类?谢谢!

1 个答案:

答案 0 :(得分:0)

K均值计算均值。数组上均值的规范定义(按组件划分)相当于将数据展平为n * p数组形状。

其他方法(例如HAC和DBSCAN )可用于具有距离函数的任何数据,例如多边形。

这导致了主要问题:您不能“仅仅”集群。您需要确定正确的数据处理方式。如果要使与组件均方差的平方误差最小,则是k均值。如果您有量化距离的方法,则可以使用HAC和DBSCAN。否则,您将首先需要弄清楚如何以对您的用例有用的方式测量相似性。