我需要聚类一个主要包含零值的矩阵...... K-means适用于这类数据还是我需要考虑不同的算法?
答案 0 :(得分:2)
没有。原因是平均值对稀疏数据不敏感。得到的平均向量将具有与实际数据非常不同的特征;他们往往最终会变得彼此更相似,而不是真实的文件!
有一些修改可以改善稀疏数据的k均值,例如球形 k-means。
但在很大程度上,这种数据的k均值只是一种粗略的启发式算法。结果并非完全没用,但它们也不是你能做到的最好的。它有效,但偶然,不是设计。
答案 1 :(得分:0)
k -means被广泛用于聚类稀疏数据,例如文档术语向量,所以我要说继续。当然,取得好成绩取决于数据和你要找的东西。
有几点需要注意: