在KDD99数据集上执行k均值时,k数的一般约定是什么?我读过的三篇不同的论文有三个完全不同的k(25,20和5)。我想知道对此的一般看法,例如k e.t.c的范围应该是多少?
谢谢
答案 0 :(得分:0)
K-means聚类算法用于查找未在数据中明确标记的组。 通常,没有确定K确切值的方法,但是可以使用估计的方法来确定它。
要找到K,请取数据点与其簇质心之间的平均距离。
肘部方法和内核方法工作更精确,但是簇的数量取决于您的问题。 (推荐的) 一种快速的方法是:-取数据点数除以2的平方根,并将其设置为群集数。