没有输入参数的数据聚类

时间:2013-02-07 16:43:32

标签: parameters machine-learning hierarchical-clustering

这更像是一个理论问题:

您知道任何不需要任何输入参数的聚类算法(平面或分层),例如聚类数量或邻域大小等吗?换句话说,您只需将数据作为输入提供给算法,并将群集作为输出。

如果有关相关文件/文件的建议我会很高兴。

2 个答案:

答案 0 :(得分:2)

自动确定群集数量确实是一个棘手的问题,仍然被认为是开放式研究问题。

最先进的聚类技术之一是将数据建模为Dirichlet Process Mixture,请参阅Bayesian Hierarchical Clustering,但这并非易事,需要采用贝叶斯方法和马尔可夫链蒙特卡罗(MCMC)进行估算。 / p>

这种方法可以自动估计簇的数量。

答案 1 :(得分:0)

通常,一旦您通过聚类定义了您的意思,答案就会出现。这是困难的部分。

对于实值数据,我喜欢使用具有自动 h 选择的均值平移。群集对应于数据密度图中的模式,分组结果类似于分水岭变换。

http://en.wikipedia.org/wiki/Mean-shift
http://en.wikipedia.org/wiki/Kernel_density_estimation
http://en.wikipedia.org/wiki/Multivariate_kernel_density_estimation