检查坐标是否落在给定半径范围内

时间:2016-09-12 15:51:14

标签: r geospatial

我有一个这种格式的某些巴士站的坐标列表

 Bus_Stop_ID     lat          long
 A               -34.04199    18.61747
 B               -33.92312    18.44649

然后我列出了某些商店

 Shop_ID     lat          long
 1            -34.039350  18.617964  
 2            -33.927820  18.410520 

我想检查商店是否距离巴士站500米范围内。最终,如果Bus_Stop == T -

Shop_ID lat long Bus_Stop Bus_ID 1 -34.039350 18.617964 TRUE A 2 -33.927820 18.410520 FALSE #NA

有没有人知道如何使用R来解决这个问题?我已经看到了geosphere这个包,但由于我在空间领域的相对缺乏经验,所以我很难理解它。您可以推荐的任何想法或套餐?谢谢

2 个答案:

答案 0 :(得分:4)

更新为更具伸缩性的解决方案:

上一个答案(仍然包含在下面)不适用于大型数据集。原因是我们需要计算每对shopsbus的距离。因此,O(N*M)商店和N公共汽车的内存和计算均为M。更具可扩展性的解决方案使用诸如KD树之类的数据结构来为每个商店执行最近邻搜索。这里的优点是计算复杂度变为O(M*logM)用于构建公交车站的KD树,O(N*logM)用于搜索每个车间的最近邻居。

为此,我们可以使用nn2包中的RANN。这里的复杂性是nn2仅处理欧几里德距离并且不知道有关纬度/经度的任何信息。因此,我们需要将纬度/经度坐标转换为某些地图投影(即UTM)以便正确使用它(即,为了正确计算商店和公共汽车站之间的欧几里德距离)。

注意:以下借用Josh O&Brien的determining the UTM zone from a longitudeconverting lat/long to UTM解决方案,所以他应该鞠躬。< / p>

## First define a function from Josh OBrien's answer to convert
## a longitude to its UTM zone
long2UTM <- function(long) {
  (floor((long + 180)/6) %% 60) + 1
}

## Assuming that all points are within a zone (within 6 degrees in longitude),
## we use the first shop's longitude to get the zone.
z <- long2UTM(shops[1,"long"])

library(sp)
library(rgdal)

## convert the bus lat/long coordinates to UTM for the computed zone
## using the other Josh O'Brien linked answer
bus2 <- bus
coordinates(bus2) <- c("long", "lat")
proj4string(bus2) <- CRS("+proj=longlat +datum=WGS84")

bus.xy <- spTransform(bus2, CRS(paste0("+proj=utm +zone=",z," ellps=WGS84")))

## convert the shops lat/long coordinates to UTM for the computed zone
shops2 <- shops
coordinates(shops2) <- c("long", "lat")
proj4string(shops2) <- CRS("+proj=longlat +datum=WGS84")

shops.xy <- spTransform(shops2, CRS(paste0("+proj=utm +zone=",z," ellps=WGS84")))

library(RANN)

## find the nearest neighbor in bus.xy@coords for each shops.xy@coords
res <- nn2(bus.xy@coords, shops.xy@coords, 1)
## res$nn.dist is a vector of the distance to the nearest bus.xy@coords for each shops.xy@coords
## res$nn.idx is a vector of indices to bus.xy of the nearest bus.xy@coords for each shops.xy@coords
shops$Bus_Stop <- res$nn.dists <= 500
shops$Bus_ID <- ifelse(res$nn.dists <= 500, bus[res$nn.idx,"Bus_Stop_ID"], NA)

虽然更复杂,但这种方法更适合于您可能拥有大量商店和巴士站的现实问题。使用相同的提供数据:

print(shops)
##  Shop_ID       lat     long Bus_Stop Bus_ID
##1       1 -34.03935 18.61796     TRUE      A
##2       2 -33.92782 18.41052    FALSE   <NA>

您可以使用包geosphere执行此操作。在这里,我假设您的第一个数据框名为bus,而您的第二个数据框名为shops

library(geosphere)
g <- expand.grid(1:nrow(shops), 1:nrow(bus))
d <- matrix(distGeo(shops[g[,1],c("long","lat")], bus[g[,2],c("long","lat")]),
            nrow=nrow(shops))
shops$Bus_Stop <- apply(d, 1, function(x) any(x <= 500))
shops$Bus_ID <- bus[apply(d, 1, function(x) {
                                  c <-which(x <= 500)
                                  if(length(c)==0) NA else c[1]
                                }), "Bus_Stop_ID"]
print(shops)
##  Shop_ID       lat     long Bus_Stop Bus_ID
##1       1 -34.03935 18.61796     TRUE      A
##2       2 -33.92782 18.41052    FALSE   <NA>

注意:

  1. 我们首先使用expand.grid枚举shopsbus个停靠点的所有对组合。这些是shops首先排序的。
  2. 然后,我们使用d计算距离矩阵geosphere::distGeo。请注意,输入需要(lon,lat)坐标。 distGeo以米为单位返回距离。生成的d矩阵为now(shops) now(bus),以便每行显示从商店到每个公交车站的距离。
  3. 然后我们通过使用any(x <= 500) xd中的每一行apply应用MARGIN=1函数,看看每个商店500米范围内是否有公交车站1}}。
  4. 同样,我们可以使用d代替bus,为500米范围内的第一家商店提取which列(对应any中的行)在我们的应用功能。然后使用此结果从Bus_Stop_ID
  5. 中选择bus

    顺便说一句,我们不必apply条件x <= 500两次。以下内容也适用:

    shops$Bus_ID <- bus[apply(d, 1, function(x) {
                                      c <-which(x <= 500)
                                      if(length(c)==0) NA else c[1]
                                    }), "Bus_Stop_ID"]
    shops$Bus_Stop <- !is.na(shops$Bus_ID)
    

    并且更有效率。

    数据:

    bus <- structure(list(Bus_Stop_ID = structure(1:2, .Label = c("A", "B"
    ), class = "factor"), lat = c(-34.04199, -33.92312), long = c(18.61747, 
    18.44649)), .Names = c("Bus_Stop_ID", "lat", "long"), class = "data.frame",  row.names = c(NA, 
    -2L))
    
    shops <- structure(list(Shop_ID = 1:2, lat = c(-34.03935, -33.92782), 
    long = c(18.617964, 18.41052), Bus_ID = structure(c(1L, NA
    ), .Label = c("A", "B"), class = "factor"), Bus_Stop = c(TRUE, 
    FALSE)), .Names = c("Shop_ID", "lat", "long", "Bus_ID", "Bus_Stop"
    ), row.names = c(NA, -2L), class = "data.frame")
    

答案 1 :(得分:1)

我的第一种方法是使用Euclidean distance并检查结果值是否大于或等于0.

然后,您可以使用IF子句并检查T / F条件。

我希望这会有所帮助。

PS:在我的想象中,500米的距离将是地球表面的一个相当平坦的表示,所以我认为不需要使用一些大地水准面包。