Question

我正在尝试在不平衡的数据集上实现软集群。数据集约有20万行40列。每当我运行fanny()函数时，RStudio都会崩溃，并且我被迫开始新的会话。

我可以在上面的数据集上成功运行cmeans()，但是当我使用fanny()函数时。最初用于显示此错误：

错误：无法分配大小为123.5 Gb的向量

因此，我在启动R时在目标（属性）中添加了--max-vsize=1500000M。添加此后，每当我运行fanny()函数时，RAM的使用量将达到31.8 GB。几分钟后，RStudio就会崩溃。

library(cluster)
#The dataset 'train' has around 20 factor columns and 20 integer columns with 200k rows.
Cluster <- fanny(trainSet, 3)

Answer 1

显然，fanny尝试使用距离矩阵。

因此，我建议您仔细研究算法的思想，以及它是否需要该矩阵，或者是否可以有效地实现（即编写算法，而不仅仅是调用它！）。）而不执行此操作。如果需要距离矩阵，那么您将无法对大于65k的数据集实施fanny。