聚类,大型数据集,学习大量词汇

时间:2018-07-05 12:42:47

标签: matlab bigdata cluster-analysis

我试图从一个大型数据集进行聚类: 行:140万 cols:900

群集的预期数量:10,000(10,000)

问题是:s 我的数据集大小为10Gb,我的RAM为16Gb 。我正在尝试在Matlab中实施。如果有人可以回应,对我来说将是很大的帮助。

P.S。到目前为止,我已经尝试过层次化集群。在一篇论文中,tehy建议使用“ 固定半径增量预聚类” 。但是我不明白这个程序。

谢谢。

1 个答案:

答案 0 :(得分:0)

使用某些算法,不需要不需要距离矩阵。相反,请选择可以进行索引加速的

具有距离矩阵的巴西人将超过您的记忆。但是即使不要求这样做(例如SLINK仅使用O(n)内存),它仍然可能会花费太长时间。索引可以将运行时间减少到O(n log n),尽管在您的数据上索引可能有问题。

索引加速算法例如:OPTICS,DBSCAN。

对于这些算法,请不要使用真正糟糕的Matlab脚本。