应用错误收集

时间：2010-07-05 07:42:38

标签： matrix cluster-analysis data-mining sparse-matrix k-means

我正在尝试在非常大的矩阵上进行一些（k-means）聚类。

矩阵大约是500000行×4000个cols但非常稀疏（每行只有几个“1”值）。我想要绕过2000个集群。

我有两个问题： - 有人可以推荐一个开源平台或工具（可能使用k-means，也许有更好的东西）？ - 如何最好地估计算法需要完成的时间？我试过weka一次，但是几天之后中止了这份工作，因为我不知道需要花多少时间。

谢谢！

答案 0 :(得分：2)

答案 1 :(得分：1)

对于您的情况，我猜您的问题仅在于输入的大小。

我建议将“cluto”作为大型稀疏数据集的好工具。它用C语言编写。我已经尝试了大约1700万行，大约400列。它运作得很快。

答案 2 :(得分：0)

你可以在R中尝试sparcl包，它实现了稀疏的k-means和层次聚类。不太容易理解强硬