我已经使用C ++在 OpenCV 中完成了 Kmeans群集,并且拥有12个群集中心(每个维度为200维)。
现在,我有一组200维点,我正在尝试找到最接近的群集(矢量量化)。
哪个距离优先于另一个距离(马哈拉诺比斯距离或欧几里德距离)?目前我正在使用欧几里德距离。
答案 0 :(得分:4)
如果不了解背景,就无法回答。没有好的或坏的度量标准,每一个都更适合于特定类别的问题。
答案 1 :(得分:4)
Andrey's point是有效的。我可以添加一般性陈述:
对于马哈拉诺比斯距离,您需要能够正确估计每个群集的协方差矩阵。使用200维度,您可以期望对协方差矩阵群集进行合理估计的唯一方法是具有数百到数千个数据点的数量级。再加上你拥有的12个星团,你很容易需要成千上万的数据点来合理地使用马哈拉诺比斯距离。
除此之外:尝试欧几里德距离如何为您服务。如果结果合理,只要坚持下去,否则尝试Mahalanobis。
最后,您可能会在stats stackexchange上找到关于此主题的知识渊博的人。