如何为大型数据集实施fanny(软集群)?

时间:2019-08-07 11:37:19

标签: r cluster-analysis

我正在尝试在不平衡的数据集上实现软集群。数据集约有20万行40列。 每当我运行fanny()函数时,RStudio都会崩溃,并且我被迫开始新的会话。

我可以在上面的数据集上成功运行cmeans(),但是当我使用fanny()函数时。 最初用于显示此错误:

  

错误:无法分配大小为123.5 Gb的向量

因此,我在启动R时在目标(属性)中添加了--max-vsize=1500000M。添加此后,每当我运行fanny()函数时,RAM的使用量将达到31.8 GB。几分钟后,RStudio就会崩溃。

library(cluster)
#The dataset 'train' has around 20 factor columns and 20 integer columns with 200k rows.
Cluster <- fanny(trainSet, 3)

1 个答案:

答案 0 :(得分:0)

显然,fanny尝试使用距离矩阵。

因此,我建议您仔细研究算法的思想,以及它是否需要该矩阵,或者是否可以有效地实现(即编写算法,而不仅仅是调用它!)。 )而不执行此操作。如果需要距离矩阵,那么您将无法对大于65k的数据集实施fanny。