来自两个独立数据帧的距离矩阵

时间:2016-09-18 18:09:12

标签: r matrix dataframe euclidean-distance

我想创建一个矩阵,其中包含来自一个数据帧的行与来​​自另一个数据帧的行的欧几里德距离。例如,假设我有以下数据框:

a <- c(1,2,3,4,5)
b <- c(5,4,3,2,1)
c <- c(5,4,1,2,3)
df1 <- data.frame(a,b,c)

a2 <- c(2,7,1,2,3)
b2 <- c(7,6,5,4,3)
c2 <- c(1,2,3,4,5)
df2 <- data.frame(a2,b2,c2)

我想创建一个矩阵,其中df1中每行的距离与df2的行相距。

因此矩阵[2,1]应该是df1 [2,]和df2 [1,]之间的欧氏距离。矩阵[3,2] df [3,]和df2 [2,]等之间的距离

有谁知道如何实现这一目标?

2 个答案:

答案 0 :(得分:6)

也许您可以使用fields包:函数rdist可能会执行您想要的操作:

  

rdist:欧氏距离矩阵
    描述:给定两组位置计算所有配对中的欧几里德距离矩阵。

> rdist(df1, df2)
     [,1]     [,2]     [,3]     [,4]     [,5]
[1,] 4.582576 6.782330 2.000000 1.732051 2.828427
[2,] 4.242641 5.744563 1.732051 0.000000 1.732051
[3,] 4.123106 5.099020 3.464102 3.316625 4.000000
[4,] 5.477226 5.000000 4.358899 3.464102 3.316625
[5,] 7.000000 5.477226 5.656854 4.358899 3.464102

pdist

的情况类似
  

pdist:分区矩阵的观察之间的距离
    描述:计算矩阵X的行与另一个矩阵Y的行之间的欧氏距离。

> pdist(df1, df2)
An object of class "pdist"
Slot "dist":
[1] 4.582576 6.782330 2.000000 1.732051 2.828427 4.242640 5.744563 1.732051
[9] 0.000000 1.732051 4.123106 5.099020 3.464102 3.316625 4.000000 5.477226
[17] 5.000000 4.358899 3.464102 3.316625 7.000000 5.477226 5.656854 4.358899
[25] 3.464102
attr(,"Csingle")
[1] TRUE

Slot "n":
[1] 5

Slot "p":
[1] 5

Slot ".S3Class":
[1] "pdist"

注意:如果您要在行之间寻找欧几里德规范,您可能需要尝试:

a <- c(1,2,3,4,5)
b <- c(5,4,3,2,1)
c <- c(5,4,1,2,3)
df1 <- rbind(a, b, c)

a2 <- c(2,7,1,2,3)
b2 <- c(7,6,5,4,3)
c2 <- c(1,2,3,4,5)
df2 <- rbind(a2,b2,c2)

rdist(df1, df2)

这给出了:

> rdist(df1, df2)
         [,1]     [,2]     [,3]
[1,] 6.164414 7.745967 0.000000
[2,] 5.099020 4.472136 6.324555
[3,] 4.242641 5.291503 5.656854

答案 1 :(得分:2)

这改编自my previous answer here

对于一般n - 维欧氏距离,我们可以利用方程(不是R,而是代数):

square_dist(b,a) = sum_i(b[i]*b[i]) + sum_i(a[i]*a[i]) - 2*inner_prod(b,a)

其中总和超过a的向量bi=[1,n]的维度。此处,ab分别是来自df1df2的一对列。这里的关键是这个等式可以写成df1df2中所有对的矩阵方程。

在代码中:

d <- sqrt(matrix(rowSums(expand.grid(rowSums(df1*df1),rowSums(df2*df2))),
                 nrow=nrow(df1)) - 
          2. * as.matrix(df1) %*% t(as.matrix(df2)))

注意:

  1. 分别为rowSums中的sum_i(a[i]*a[i])sum_i(b[i]*b[i]) a内的df1计算bdf2
  2. expand.grid然后生成df1df2之间的所有对。
  3. rowSums计算所有这些对的sum_i(a[i]*a[i]) + sum_i(b[i]*b[i])
  4. 然后将此结果重新整形为matrix。请注意,此矩阵的行数是df1
  5. 的行数
  6. 然后减去所有对的内积的两倍。这个内积可以写成矩阵乘法df1 %*% t(df2),为了清楚起见我将强制省略到矩阵。
  7. 最后,取平方根。
  8. 将此代码与您的数据一起使用:

    print(d)
    ##         [,1]     [,2]     [,3]     [,4]     [,5]
    ##[1,] 4.582576 6.782330 2.000000 1.732051 2.828427
    ##[2,] 4.242641 5.744563 1.732051 0.000000 1.732051
    ##[3,] 4.123106 5.099020 3.464102 3.316625 4.000000
    ##[4,] 5.477226 5.000000 4.358899 3.464102 3.316625
    ##[5,] 7.000000 5.477226 5.656854 4.358899 3.464102
    

    请注意,此代码适用于任何n > 1。在您的情况下,n=3