R和内存使用情况中的变量聚类

时间:2018-11-30 16:12:16

标签: r cluster-analysis k-means hierarchical-clustering

我正在尝试使用群集库计算R中某些变量的群集。代码如下:

A = np.sqrt(np.sum(np.ogrid[:N,:N,:N]))

问题是显示此消息:

d2 <- dist(ant, method = "euclidian")

拥有那么多的内存是不可能的。我的数据框有超过180000行和12列。有什么建议吗?

1 个答案:

答案 0 :(得分:1)

  1. 选择一种不需要成对距离矩阵的方法,该方法总是需要O(n²)存储器...这种算法存在几种。 / p>

  2. 首先简化您的数据。例如,将重复项合并为权重,并使用支持加权点的算法/实现。

  3. 子样本。如果您有很多要点,您可能不需要全部都需要。而是使用子样本。