我正在尝试在非常大的矩阵上进行一些(k-means)聚类。
矩阵大约是500000行×4000个cols但非常稀疏(每行只有几个“1”值)。我想要绕过2000个集群。
我有两个问题: - 有人可以推荐一个开源平台或工具(可能使用k-means,也许有更好的东西)? - 如何最好地估计算法需要完成的时间?我试过weka一次,但是几天之后中止了这份工作,因为我不知道需要花多少时间。
谢谢!
答案 0 :(得分:2)
答案 1 :(得分:1)
对于您的情况,我猜您的问题仅在于输入的大小。
我建议将“cluto”作为大型稀疏数据集的好工具。 它用C语言编写。我已经尝试了大约1700万行,大约400列。 它运作得很快。
答案 2 :(得分:0)
你可以在R中尝试sparcl包,它实现了稀疏的k-means和层次聚类。不太容易理解强硬