这可能是一个微不足道的问题。我们如何为特殊的高维数据集选择良好的距离函数?我已经读过一些距离函数,例如欧氏距离在高维数据中不能很好地工作。如果这不能给我们一个好的距离测量,那么什么功能可以?
答案 0 :(得分:2)
它来自维度的诅咒,其基本上是随着维数的增加,空间变得越来越空。
最佳距离测量是高度依赖数据的,但我建议使用较低的p值进行交叉验证,以获得minkowsky距离
mikowsky_distance = sum_i(| u_i-v_i | ^ p)^(1 / p)
p = 1这是曼哈顿距离(L1)在大多数更高维度的情况下比使用欧几里德(L2)更好并且非常容易测试。也尝试采用像1/4这样的较小值,看看会发生什么。您也可以尝试使用限制p-> -inf这是最小的min(|u_i-v_i|)
。 p上的较低值使得具有最大相似性的维度与较少匹配的维度相比具有更大的权重。
我建议阅读论文
http://www-users.cs.umn.edu/~kumar/papers/siam_hd_snn_cluster.pdf
触及主题。