应用错误收集

时间：2019-02-21 07:44:41

标签： machine-learning cluster-analysis k-means unsupervised-learning

对此我感到非常困惑，我是集群的新手。

最近，我制作了一个csv文件及其数据结构，如下所示： csv file

如您所见，每个元素中的值都是数组，并且有两种数组形状：[1,2]和[2,1]。简而言之，我有200个样本，每个人都有400个功能，但是每个功能的类型都是数组。

那么，Kmeans是可以处理它还是有其他方法可以对此类数据进行聚类？谢谢！

答案 0 :(得分：0)

K均值计算均值。数组上均值的规范定义（按组件划分）相当于将数据展平为n * p数组形状。

其他方法（例如HAC和DBSCAN ）可用于具有距离函数的任何数据，例如多边形。

这导致了主要问题：您不能“仅仅”集群。您需要确定正确的数据处理方式。如果要使与组件均方差的平方误差最小，则是k均值。如果您有量化距离的方法，则可以使用HAC和DBSCAN。否则，您将首先需要弄清楚如何以对您的用例有用的方式测量相似性。