应用错误收集

对于K-means变量算法，对于'k'的初始预测有一个经验法则。通常，适合采用k =（n / 2）^ 0.5，其中n =数据点的数量。

K-means并非真正设计用于稀疏数据。此外，它是专为欧氏距离设计的，你应该知道这不是高维数据的好选择。

也许最简单的论点如下：子集的 mean 可能不再稀疏，因此它本身会异常，并且比中心更接近实际的数据实例。然而，这意味着不同集群的手段可能比实际情况更接近彼此，这使得结果非常可疑。

你应该至少尝试使用k-medians（但速度要慢得多），或者其他措施来保护手段的稀疏性。当然：k-means 对数据进行聚类。问题是，结果的有效性如何。

另见：

对于在高维稀疏/二进制数据上运行k-means的一些失败故事（=没有好答案的问题）。