如何在R中拉出一定距离内的点?

时间:2015-12-15 19:39:54

标签: r euclidean-distance

我有一个由(x,y)给出的参数空间,x的{​​{1}}值和1:5的{​​{1}}值。让我们说我的当前点y位于1:8(它以红色着色)。我的目标是尝试将距离点p(蓝色点)一个单位距离内的所有点拉出来。 enter image description here

我想知道是否有一种有效的方法可以做到这一点。让我们说我的变量以下列方式存储:

(2,5)

我想以这种方式存储p下面的其他点:

xrange <- 1:5
yrange <- 1:8
grid <- expand.grid(xrange,yrange)
p <- data.frame(x=2,y=5)

最终目标是使参数空间超过2维。所以我最终希望找到所有距离p距离res <- data.frame(x=c(1,1,1,2,2,3,3,3),y=c(4,6,4,5,6,4,5,6)) res <- rbind(p,res) > res x y 1 2 5 2 1 4 3 1 6 4 1 4 5 2 5 6 2 6 7 3 4 8 3 5 9 3 6 的点,并且类似地得到一个数据帧,每列都是参数空间中的一个参数,每一行都是一个坐标为s的点。它的专栏。

编辑如果我想要一个圆圈或欧几里德距离(x,y,z,..,etc),我尝试了以下实现,这似乎有效。我不确定解决方案的效率如何。

s

更多信息:目前,我的参数空间是离散的,如上图所示。最终,一些参数也将与离散参数连续混合。非常感谢你!

2 个答案:

答案 0 :(得分:2)

网格上每个点与目标点p之间的欧氏距离可以通过以下方式有效计算:

dist <- sqrt(rowSums(mapply(function(x,y) (x-y)^2, grid, p)))

基本上,内部mapply调用将产生与grid大小相同的矩阵,但该点与该维度中的目标点的距离为平方; rowSumssqrt有效地计算欧氏距离。

在这种情况下,您将包含距目标点sqrt(2)欧几里德距离的任何内容:

grid[dist < 1.5,]
#    Var1 Var2
# 16    1    4
# 17    2    4
# 18    3    4
# 21    1    5
# 22    2    5
# 23    3    5
# 26    1    6
# 27    2    6
# 28    3    6

mapply(在尺寸上操作)和rowSums的使用使得这比通过网格上的各个点循环,计算到目标点的距离的方法更有效。要看到这一点,请考虑一个略大的示例,其中包含三个维度中的1000个随机分布点:

set.seed(144)
grid <- data.frame(x=rnorm(1000), y=rnorm(1000), z=rnorm(1000))
p <- data.frame(x=rnorm(1), y=rnorm(1), z=rnorm(1))
lim <- 1.5
byrow <- function(grid, p, lim) grid[apply(grid, 1, function(x) sqrt(sum((x-p)^2))) < lim,]
vectorized <- function(grid, p, lim) grid[sqrt(rowSums(mapply(function(x,y) (x-y)^2, grid, p))) < lim,]
identical(byrow(grid, p, lim), vectorized(grid, p, lim))
[1] TRUE
library(microbenchmark)
# Unit: microseconds
#                      expr       min         lq        mean      median         uq        max neval
#       byrow(grid, p, lim) 446792.71 473428.137 500680.0431 495824.7765 521185.093 579999.745    10
#  vectorized(grid, p, lim)    855.33    881.981    954.1773    907.3805   1081.658   1108.679    10

矢量化方法比循环遍历行的方法快500倍。

这种方法可用于您有更多积分(本例中为100万)的情况:

set.seed(144)
grid <- data.frame(x=rnorm(1000000), y=rnorm(1000000), z=rnorm(1000000))
p <- data.frame(x=rnorm(1), y=rnorm(1), z=rnorm(1))
lim <- 1.5
system.time(vectorized(grid, p, lim))
#    user  system elapsed 
#   3.466   0.136   3.632 

答案 1 :(得分:0)

以下是如何使用包FNN执行此操作。结果与您的结果不同,因为您的解决方案有(1 4)和(2 5)两次。该解决方案也适用于边界数据。如果你的x或y为1,或者在矩阵的边缘,你将只有6个最近的邻居。

library(FNN)
x <-2
y <- 5
pt <-grid[grid$Var1==x & grid$Var2==y ,] #target point
distance <-knnx.dist(grid,pt,k=9) #distance from pt
k <-length(distance[distance<2]) #distance is less than 2. Useful for border data 
nearest <-knnx.index(grid,pt,k=k) #find index of k nearest neighbors

grid[nearest,]

   Var1 Var2
22    2    5
23    3    5
27    2    6
21    1    5
17    2    4
26    1    6
28    3    6
18    3    4
16    1    4

我看到你也要求更高的尺寸。它仍然可以用于跟随变化:

x <-2
y <- 5
z <-3
pt <-grid[grid$Var1==x & grid$Var2==y & grid$Var3==z ,] #3-dimensional point
distance <-knnx.dist(grid,pt,k=27) #increase to k=27
k <-length(distance[distance<2])
nearest <-knnx.index(grid,pt,k=k)
grid[nearest,]