应用错误收集

R和内存使用情况中的变量聚类

时间：2018-11-30 16:12:16

标签： r cluster-analysis k-means hierarchical-clustering

我正在尝试使用群集库计算R中某些变量的群集。代码如下：

A = np.sqrt(np.sum(np.ogrid[:N,:N,:N]))

问题是显示此消息：

d2 <- dist(ant, method = "euclidian")

拥有那么多的内存是不可能的。我的数据框有超过180000行和12列。有什么建议吗？

1 个答案:

答案 0 :(得分：1)

选择一种不不需要成对距离矩阵的方法，该方法总是需要O（n²）存储器...这种算法存在几种。 / p>
首先简化您的数据。例如，将重复项合并为权重，并使用支持加权点的算法/实现。
子样本。如果您有很多要点，您可能不需要全部都需要。而是使用子样本。