如何在Shi-Malik算法中选择k?

时间:2014-11-29 22:46:11

标签: graph cluster-analysis

我想知道如何选择Shi-Malik Algo.中的特定k 我们选择几个k并通过他们的SSE措施对它们进行排名吗? k是否反映了我们为数据假设的聚类数量?

亲切的问候Mikey

1 个答案:

答案 0 :(得分:1)

是的,K是我们认为他们在数据中的自然分组数。

你可以通过探索特征值来找到K. 一种专门用于光谱聚类的工具是 Eigengap启发式(也称为光谱间隙) - 聚类数k通常由最大化本征的k值(连续特征值之间的差异)给出。即,选择数k,使得所有特征值λ1,..., 。 。 ,λk非常小,但λk+ 1相对较大。 该eigengap越大,理想情况的特征向量越接近,因此光谱聚类越好。如果您对此过程的理由感兴趣,则它基于扰动理论和谱图理论。 您可以在此处阅读更多内容:A Tutorial on Spectral Clustering - Ulrike von Luxburg

探索自然分组的其他方法:连通分量的数量和拉普拉斯矩阵的频谱 - 拉普拉斯算子中作为特征值出现的次数0是连接分量的数量图形。您的亲和度矩阵可以被视为图形,然后,尝试查看图表中有多少个连接的组件。这将让您了解数据的中性结构..

此外,正如您所提到的,我们可以设置验证标准(例如, SSE )并在不同的K值下查看其值。一旦您标记为< / strong>数据(在群集中并非总是如此)并且您知道此标准/质量度量确实有意义。