R中的欧几里德距离计算没有意义

时间:2011-10-18 02:37:51

标签: r

(前言:我既不是统计学家也不是程序员。我在人文学科工作,所以怜悯我的灵魂。)

我需要计算R中一系列点之间的欧几里德距离。我一直在使用dist(),如下所示:

> x <- c(0,0)
> y <- c(0,10)
> dist(rbind(x,y))
   x
y 10

到目前为止,这么好。但是当我看着我的结果(有实数)时,他们非常可怕。这么多,以至于我认为我的R脚本正在从错误的列中获取数据。但我查了一下,事实并非如此。

所以我开始玩玩具号码,我很惊讶。以上示例(垂直线)正常工作,如下所示(水平线):

> x <- c(0,10)
> y <- c(0,0)
> dist(rbind(x,y))
   x
y 10

但是当两点形成的线是对角线时,就会出现陌生感:

> x <- c(0,10)
> y <- c(0,10)
> dist(rbind(x,y))
  x
y 0

距离为0?咦?这不可能是正确的。

当积分相同时(我的数据很可能),我们走下兔子洞:

> x <- c(0,0)
> y <- c(10,10)
> dist(rbind(x,y))
     x
y 14.14214

这不是0吗?毕竟,这些点是相同的,所以它们之间没有距离。

为了防止dist()出现问题,我尝试按维基百科手动实现公式。相同的结果:

> sqrt(sum((x - y) ^ 2))
[1] 14.14214

正如我上面所说,我的数学背景很小,所以我完全相信这里的错误是我的。如果是这样,请解释它是什么以及如何纠正它。但是从我现在的立场来看,似乎有些事情是非常错误的。

最糟糕的是,我无法分析我的数据。

3 个答案:

答案 0 :(得分:15)

看起来你想要dist(cbind(x, y)),而不是dist(rbind(x, y))

答案 1 :(得分:9)

dist计算其参数的每对行之间的距离矩阵。如果你的行是相同的,就像在你的第一个'奇怪的'例子中那样,那么距离确实是0.如果你的行是常数0和常数10,如你的第二个例子,那么距离确实是sqrt((10- 0)^ 2 +(10-0)^ 2)= 14.142 ......

答案 2 :(得分:7)

当你运行这个时,你认为你在做什么:

x <- c(0,10)
y <- c(0,0)
dist(rbind(x,y))

是您定义了两个点(0,0)(10,0),并要求R计算这两个点之间的距离。

但事实上,你根本没有要求R这样做!

当您rbind向量xy在一起时,您最终会得到矩阵:

rbind(c(0,10),c(0,0))
     [,1] [,2]
[1,]    0   10
[2,]    0    0

当您致电dist时,它会计算此矩阵的之间的距离。因此,它们之间的距离是10。

希望现在有意义了!