关于数据挖掘中集群数量的决策

时间:2014-03-15 12:24:38

标签: cluster-analysis data-mining

当我们想要聚合某些数据时,需要按用户给出群集的数量。与K-Means算法一样,我们需要指定如何需要集群。

我的问题是算法可能决定群集对特定数据集的可行性。

2 个答案:

答案 0 :(得分:0)

有几种聚类算法不需要所需数量的聚类作为算法的输入。这种算法的一个例子是均值漂移聚类算法。但是,您需要指定内核作为算法的输入。此内核选择(例如,内核的大小和形状)将影响您作为输出获得的集群数。

更多信息:
http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/TUZEL1/MeanShift.pdf
http://scikit-learn.org/stable/auto_examples/cluster/plot_mean_shift.html

答案 1 :(得分:0)

我不是那么专家,但是为了回答你的问题,是的,有一些方法可以自动确定kmeans的集群数量。 它非常复杂,但是给定数据集和聚类方法,您可以计算所谓的间隙统计量,以便计算聚类数量。 如果您是R用户,请尝试检查clusGap和maxSE函数。