最近邻居图中第k个邻居的奇怪距离

时间:2019-01-10 18:48:28

标签: r machine-learning classification cluster-analysis nearest-neighbor

为澄清起见,我有许多维度的数据集,例如成百上千,可能需要规范化。

我想计算到最近邻居图中第k个邻居的距离。 对于此data set,我计算了第k个最近邻居的平均距离,但结果太大而又奇怪!例如,当我使用k = 5时,所得到的平均距离为2147266047,而当k增加到12时,则平均距离增加为4161197373!我敢肯定有什么问题,但是我不知道为什么!可能是因为使用了欧氏距离,或者可能是我需要在计算距离之前对数据进行归一化。

令我更加困惑的是,该方法在将其应用于其他数据集(例如虹膜)时,效果很好。低于我的代码

data(iris)
iris <- as.matrix(iris[,1:4])
distance<- ppx(iris) %>% nndist(k = 3)
as.vector(distance)
avg<-(sum(distance)/length(distance))
avg

我的第一个问题:获得像我为Epsilon获得的大值是正常的,还是在处理数据时出现问题。

另一个问题:还有其他方法可以估算Epsilon的值

2 个答案:

答案 0 :(得分:3)

不是一个完整的答案,但是也许我们可以迭代并到达那里:

  1. 当维数大时,欧几里德2范数变大是正常的。考虑一下单位正方形相对角之间的距离如何为sqrt(2),对于单位立方体为sqrt(3)等等。在hypercubes上查看Wikipedia。

  2. 一个建议可能是对您最近的邻居启发式使用不同的规范或距离度量。 2规范着重于最大的差异。尝试1-范数?还是放弃一些功能?

最后,您可能会注意到Athanasios的电子邮件是在UCI网站上提供的;他们可能会亲自回答您的问题。

答案 1 :(得分:1)

我认为您在很大程度上回答了自己的问题。

首先,我相信您计算正确。这是我计算相同内容的代码。

library(dbscan)
summary(kNNdist(as.matrix(LSVT), 5))
       1                   2                   3                   4                   5            
 Min.   :2.326e+07   Min.   :5.656e+07   Min.   :9.132e+07   Min.   :1.316e+08   Min.   :1.981e+08  
 1st Qu.:1.104e+08   1st Qu.:2.178e+08   1st Qu.:3.041e+08   1st Qu.:3.811e+08   1st Qu.:5.201e+08  
 Median :2.231e+08   Median :3.783e+08   Median :4.964e+08   Median :6.183e+08   Median :7.723e+08  
 Mean   :7.414e+08   Mean   :1.195e+09   Mean   :1.557e+09   Mean   :1.849e+09   Mean   :2.147e+09  
 3rd Qu.:4.633e+08   3rd Qu.:9.285e+08   3rd Qu.:1.189e+09   3rd Qu.:1.391e+09   3rd Qu.:1.533e+09  
 Max.   :1.861e+10   Max.   :3.379e+10   Max.   :3.512e+10   Max.   :3.795e+10   Max.   :4.600e+10  

请注意,第五个最近邻居的平均值为2.147e + 09。

该值会令人惊讶吗?否。您的某些个体尺寸包含巨大的变化。 例如,仅使用尺寸189

max(LSVT[,189]) - min(LSVT[,189])
[1] 80398191552

summary(kNNdist(as.matrix(LSVT[,189]), 5))
       1                   2                   3                   4                   5            
 Min.   :4.098e+04   Min.   :3.259e+07   Min.   :4.034e+07   Min.   :5.791e+07   Min.   :7.772e+07  
 1st Qu.:3.163e+07   1st Qu.:1.016e+08   1st Qu.:1.657e+08   1st Qu.:2.309e+08   1st Qu.:2.909e+08  
 Median :7.078e+07   Median :1.877e+08   Median :2.502e+08   Median :3.561e+08   Median :4.610e+08  
 Mean   :3.580e+08   Mean   :8.389e+08   Mean   :1.112e+09   Mean   :1.345e+09   Mean   :1.623e+09  
 3rd Qu.:1.928e+08   3rd Qu.:5.211e+08   3rd Qu.:6.996e+08   3rd Qu.:9.491e+08   3rd Qu.:1.008e+09  
 Max.   :1.036e+10   Max.   :2.787e+10   Max.   :2.888e+10   Max.   :3.126e+10   Max.   :3.770e+10

这些大规模的尺寸将完全淹没小规模的尺寸。 因此,您几乎应该确定将数据标准化。

summary(kNNdist(scale(as.matrix(LSVT)), 5))
       1                2                3                4                5         
 Min.   : 7.002   Min.   : 7.511   Min.   : 7.742   Min.   : 7.949   Min.   : 8.047  
 1st Qu.: 8.701   1st Qu.: 9.261   1st Qu.: 9.501   1st Qu.: 9.664   1st Qu.: 9.851  
 Median :10.010   Median :10.425   Median :10.626   Median :10.890   Median :11.172  
 Mean   :11.456   Mean   :12.417   Mean   :12.927   Mean   :13.306   Mean   :13.551  
 3rd Qu.:11.622   3rd Qu.:12.176   3rd Qu.:12.492   3rd Qu.:12.876   3rd Qu.:13.093  
 Max.   :70.220   Max.   :76.359   Max.   :83.243   Max.   :87.601   Max.   :88.197  

为什么这与虹膜数据不同? 您的数据和虹膜数据之间有两个很大的区别。 您的数据包含规模迥异的属性, 而所有虹膜属性的大小都相当。 其次,虹膜数据的值都在一个数量级内 of1。您的数据所具有的值要小得多,也大得多。

summary(LSVT[,c(27,189)])
 Jitter..pitch_TKEO_prc75 entropy_shannon2_10_coef
 Min.   :-4.799e-09       Min.   :-8.233e+10      
 1st Qu.:-1.582e-11       1st Qu.:-1.831e+10      
 Median : 1.987e-11       Median :-1.090e+10      
 Mean   : 3.901e-10       Mean   :-1.576e+10      
 3rd Qu.: 1.164e-10       3rd Qu.:-6.748e+09      
 Max.   : 9.440e-09       Max.   :-1.934e+09 


summary(iris[,1:4])
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500

回复评论

使用R scale函数就是我所说的标准化。还有其他缩放数据的方法。我的意思并不是说标准化是最好的。我对这个答案的意图只是指出为什么您看到自己所看到的行为,并指出解决该问题的方向。您的数据具有不同程度的变量,并且您正在计算距离。这将使变量在小范围内几乎对结果没有影响。可能不是您想要的。 标准化是解决该问题的自然而然的最初尝试。您可能可以使用它来获得更好的距离度量,并希望更好地了解变量的交互方式。但其他或其他 可能需要对数据进行转换。