我试图从一个大型数据集进行聚类: 行:140万 cols:900
群集的预期数量:10,000(10,000)
问题是:s 我的数据集大小为10Gb,我的RAM为16Gb 。我正在尝试在Matlab中实施。如果有人可以回应,对我来说将是很大的帮助。
P.S。到目前为止,我已经尝试过层次化集群。在一篇论文中,tehy建议使用“ 固定半径增量预聚类” 。但是我不明白这个程序。
谢谢。
答案 0 :(得分:0)
使用某些算法,不需要不需要距离矩阵。相反,请选择可以进行索引加速的
。具有距离矩阵的巴西人将超过您的记忆。但是即使不要求这样做(例如SLINK仅使用O(n)内存),它仍然可能会花费太长时间。索引可以将运行时间减少到O(n log n),尽管在您的数据上索引可能有问题。
索引加速算法例如:OPTICS,DBSCAN。
对于这些算法,请不要使用真正糟糕的Matlab脚本。