K-means的种子选择策略

时间:2011-10-09 03:34:57

标签: random machine-learning cluster-analysis k-means

我想知道我可以将什么样的种子选择方法应用于K-means算法。谷歌搜索没那么有用。有什么建议吗?

2 个答案:

答案 0 :(得分:2)

种子取决于域名。例如,如果您的数据项是单词,则您的种子应该是最常用的单词。否则,您可以聚集一个小样本并将其用作种子。

以下是更复杂算法的示例:

  

k-Means的单程种子选择算法。   K. Karteeka Pavan,Allam Appa Rao,A.V。 Dattatreya Rao和G.R.斯里达尔。   计算机科学杂志6(1):60-66,2010。pdf

答案 1 :(得分:1)

谷歌的“监督”k意味着群集& k ++意味着....还指定了你的性能需求(你的k是什么?有多少输入点?)

一般来说,几千个点可以很容易地聚集在一个天真的k意味着算法实现......所以我会先尝试一下。

另外,如果您不确定K应该是什么,请先尝试MCL聚类以获得良好的估计值。