R clValid函数对大型数据集的错误

时间:2018-07-06 13:52:03

标签: r cluster-analysis

我正在尝试使用此软件包评估我的聚类结果 我运行以下命令,但它给了我错误;

intern <- clValid(test_clvalid, 3:25, maxitems = 260000, clMethods="kmeans", validation="internal")
Error in hclust(Dist, method) : size cannot be NA nor exceed 65536

test_clvalid是我的数据集,它具有256342个观测值和5个数字变量。

当我用较少的数据观察结果运行时,似乎运行良好。当我指定使用k-means评估时,不确定为什么hclust()被调用/给出错误。

1 个答案:

答案 0 :(得分:1)

很遗憾,该软件包正在使用hclust将输入初始化为kmeans, 如您所见here。 那也意味着 before that, 计算出交叉距离矩阵 整个数据集的维度为256,342 x 256,342hclust函数经过硬编码,可以处理最多65536 x 65536个矩阵, 因此您将无法使用该程序包评估数据中的k均值。