这更像是一个理论问题:
您知道任何不需要任何输入参数的聚类算法(平面或分层),例如聚类数量或邻域大小等吗?换句话说,您只需将数据作为输入提供给算法,并将群集作为输出。
如果有关相关文件/文件的建议我会很高兴。
答案 0 :(得分:2)
自动确定群集数量确实是一个棘手的问题,仍然被认为是开放式研究问题。
最先进的聚类技术之一是将数据建模为Dirichlet Process Mixture,请参阅Bayesian Hierarchical Clustering,但这并非易事,需要采用贝叶斯方法和马尔可夫链蒙特卡罗(MCMC)进行估算。 / p>
这种方法可以自动估计簇的数量。
答案 1 :(得分:0)
通常,一旦您通过聚类定义了您的意思,答案就会出现。这是困难的部分。
对于实值数据,我喜欢使用具有自动 h 选择的均值平移。群集对应于数据密度图中的模式,分组结果类似于分水岭变换。
http://en.wikipedia.org/wiki/Mean-shift
http://en.wikipedia.org/wiki/Kernel_density_estimation
http://en.wikipedia.org/wiki/Multivariate_kernel_density_estimation