(前言:我既不是统计学家也不是程序员。我在人文学科工作,所以怜悯我的灵魂。)
我需要计算R中一系列点之间的欧几里德距离。我一直在使用dist(),如下所示:
> x <- c(0,0)
> y <- c(0,10)
> dist(rbind(x,y))
x
y 10
到目前为止,这么好。但是当我看着我的结果(有实数)时,他们非常可怕。这么多,以至于我认为我的R脚本正在从错误的列中获取数据。但我查了一下,事实并非如此。
所以我开始玩玩具号码,我很惊讶。以上示例(垂直线)正常工作,如下所示(水平线):
> x <- c(0,10)
> y <- c(0,0)
> dist(rbind(x,y))
x
y 10
但是当两点形成的线是对角线时,就会出现陌生感:
> x <- c(0,10)
> y <- c(0,10)
> dist(rbind(x,y))
x
y 0
距离为0?咦?这不可能是正确的。
当积分相同时(我的数据很可能),我们走下兔子洞:
> x <- c(0,0)
> y <- c(10,10)
> dist(rbind(x,y))
x
y 14.14214
这不是0吗?毕竟,这些点是相同的,所以它们之间没有距离。
为了防止dist()出现问题,我尝试按维基百科手动实现公式。相同的结果:
> sqrt(sum((x - y) ^ 2))
[1] 14.14214
正如我上面所说,我的数学背景很小,所以我完全相信这里的错误是我的。如果是这样,请解释它是什么以及如何纠正它。但是从我现在的立场来看,似乎有些事情是非常错误的。
最糟糕的是,我无法分析我的数据。
答案 0 :(得分:15)
看起来你想要dist(cbind(x, y))
,而不是dist(rbind(x, y))
。
答案 1 :(得分:9)
dist
计算其参数的每对行之间的距离矩阵。如果你的行是相同的,就像在你的第一个'奇怪的'例子中那样,那么距离确实是0.如果你的行是常数0和常数10,如你的第二个例子,那么距离确实是sqrt((10- 0)^ 2 +(10-0)^ 2)= 14.142 ......
答案 2 :(得分:7)
当你运行这个时,你认为你在做什么:
x <- c(0,10)
y <- c(0,0)
dist(rbind(x,y))
是您定义了两个点(0,0)
和(10,0)
,并要求R计算这两个点之间的距离。
但事实上,你根本没有要求R这样做!
当您rbind
向量x
和y
在一起时,您最终会得到矩阵:
rbind(c(0,10),c(0,0))
[,1] [,2]
[1,] 0 10
[2,] 0 0
当您致电dist
时,它会计算此矩阵的行之间的距离。因此,它们之间的距离是10。
希望现在有意义了!