我正在尝试在不平衡的数据集上实现软集群。数据集约有20万行40列。
每当我运行fanny()
函数时,RStudio都会崩溃,并且我被迫开始新的会话。
我可以在上面的数据集上成功运行cmeans()
,但是当我使用fanny()
函数时。
最初用于显示此错误:
错误:无法分配大小为123.5 Gb的向量
因此,我在启动R时在目标(属性)中添加了--max-vsize=1500000M
。添加此后,每当我运行fanny()
函数时,RAM的使用量将达到31.8 GB。几分钟后,RStudio就会崩溃。
library(cluster)
#The dataset 'train' has around 20 factor columns and 20 integer columns with 200k rows.
Cluster <- fanny(trainSet, 3)
答案 0 :(得分:0)
显然,fanny尝试使用距离矩阵。
因此,我建议您仔细研究算法的思想,以及它是否需要该矩阵,或者是否可以有效地实现(即编写算法,而不仅仅是调用它!)。 )而不执行此操作。如果需要距离矩阵,那么您将无法对大于65k的数据集实施fanny。