我正在尝试使用群集库计算R中某些变量的群集。代码如下:
A = np.sqrt(np.sum(np.ogrid[:N,:N,:N]))
问题是显示此消息:
d2 <- dist(ant, method = "euclidian")
拥有那么多的内存是不可能的。我的数据框有超过180000行和12列。有什么建议吗?
答案 0 :(得分:1)
选择一种不不需要成对距离矩阵的方法,该方法总是需要O(n²)存储器...这种算法存在几种。 / p>
首先简化您的数据。例如,将重复项合并为权重,并使用支持加权点的算法/实现。
子样本。如果您有很多要点,您可能不需要全部都需要。而是使用子样本。