聚类在非常大的稀疏矩阵上?

时间:2010-07-05 07:42:38

标签: matrix cluster-analysis data-mining sparse-matrix k-means

我正在尝试在非常大的矩阵上进行一些(k-means)聚类。

矩阵大约是500000行×4000个cols但非常稀疏(每行只有几个“1”值)。我想要绕过2000个集群。

我有两个问题: - 有人可以推荐一个开源平台或工具(可能使用k-means,也许有更好的东西)? - 如何最好地估计算法需要完成的时间?我试过weka一次,但是几天之后中止了这份工作,因为我不知道需要花多少时间。

谢谢!

3 个答案:

答案 0 :(得分:2)

答案 1 :(得分:1)

对于您的情况,我猜您的问题仅在于输入的大小。

我建议将“cluto”作为大型稀疏数据集的好工具。 它用C语言编写。我已经尝试了大约1700万行,大约400列。 它运作得很快。

Link of the Cluto library

答案 2 :(得分:0)

你可以在R中尝试sparcl包,它实现了稀疏的k-means和层次聚类。不太容易理解强硬