所以我正在考虑使用不同的距离度量来表示欧几里德距离,曼哈顿距离,余弦距离,切比雪夫距离等k均值。我只想知道与聚类相关的这些距离度量的用例。
答案 0 :(得分:4)
简短的回答是:
你不应该。
K-means实际上不是基于距离的。
它基于方差最小化。通过闭合平方欧几里德距离将每个物体分配给一个物体,使方差最小化(因为平方欧几里德基本上与方差相同!)。由于sqrt函数是单调的,你也可以把它想象成最接近的欧几里德距离。
现在,如果您插入任意其他距离函数,它将不再最小化方差,并且k-means可能会停止收敛。
请注意,k-means中的另一步是更新均值。同样为了最小化方差,最好将群集中心移动到平均值。如果你插入另一个距离功能,这可能不再成立。吊杆。
然而,有例外。显然,对于一些距离函数,平均值也很有效。所以它实际上也会收敛。
此外,存在诸如K-中间体的变体。这个实际上旨在最小化距离,并将在任意距离下工作。它不需要平均值:而是使用数据集中最中心的对象。这可以让你在任意距离上收敛!
更新:以下是其他距离测量可能失败的示例。
假设我们使用绝对Pearson Correlation来测量相似性。以下两个系列是完全负相关的,即在绝对皮尔逊中具有距离0:
+1 +2 +3 +4 +5
-1 -2 -3 -4 -5
如果我们计算这些实例的 mean ,则平均值为0 0 0 0 0
,Pearson相似度为A)不再明确定义,因为标准偏差已变为0;即使我们要修正这个定义差距,平均值也可能是与此度量相关的最不相似的向量。
因此,仅使用k-means与其他距离,当您可以证明平均函数最小化您的距离。作为练习,您可能想要证明平均值 最小化欧氏距离的平方。