对此我感到非常困惑,我是集群的新手。
最近,我制作了一个csv文件及其数据结构,如下所示: csv file
如您所见,每个元素中的值都是数组,并且有两种数组形状:[1,2]和[2,1]。简而言之,我有200个样本,每个人都有400个功能,但是每个功能的类型都是数组。
那么,Kmeans是可以处理它还是有其他方法可以对此类数据进行聚类?谢谢!
答案 0 :(得分:0)
K均值计算均值。数组上均值的规范定义(按组件划分)相当于将数据展平为n * p数组形状。
其他方法(例如HAC和DBSCAN )可用于具有距离函数的任何数据,例如多边形。
这导致了主要问题:您不能“仅仅”集群。您需要确定正确的数据处理方式。如果要使与组件均方差的平方误差最小,则是k均值。如果您有量化距离的方法,则可以使用HAC和DBSCAN。否则,您将首先需要弄清楚如何以对您的用例有用的方式测量相似性。