应用错误收集

时间：2013-08-05 16:26:23

标签： matrix cluster-analysis k-means

我需要聚类一个主要包含零值的矩阵...... K-means适用于这类数据还是我需要考虑不同的算法？

答案 0 :(得分：2)

没有。原因是平均值对稀疏数据不敏感。得到的平均向量将具有与实际数据非常不同的特征;他们往往最终会变得彼此更相似，而不是真实的文件！

有一些修改可以改善稀疏数据的k均值，例如球形 k-means。

但在很大程度上，这种数据的k均值只是一种粗略的启发式算法。结果并非完全没用，但它们也不是你能做到的最好的。它有效，但偶然，不是设计。

答案 1 :(得分：0)

k -means被广泛用于聚类稀疏数据，例如文档术语向量，所以我要说继续。当然，取得好成绩取决于数据和你要找的东西。

有几点需要注意：

如果您的数据非常稀疏，那么输入的sparse representation可以将内存使用量和运行时间减少许多个数量级，因此请选择一个好的 k -means实现。
欧几里德距离并不总是稀疏向量的最佳度量标准，但将它们标准化为单位长度可能会产生更好的结果。
无论输入稀疏程度如何，群集质心都很可能会变得密集，所以不要使用太多的功能。
进行降维，例如样本上的SVD可能会大大增加运行时间和集群质量。