我有一个这种格式的某些巴士站的坐标列表
Bus_Stop_ID lat long
A -34.04199 18.61747
B -33.92312 18.44649
然后我列出了某些商店
Shop_ID lat long
1 -34.039350 18.617964
2 -33.927820 18.410520
我想检查商店是否距离巴士站500米范围内。最终,如果Bus_Stop == T -
Shop_ID lat long Bus_Stop Bus_ID
1 -34.039350 18.617964 TRUE A
2 -33.927820 18.410520 FALSE #NA
有没有人知道如何使用R来解决这个问题?我已经看到了geosphere
这个包,但由于我在空间领域的相对缺乏经验,所以我很难理解它。您可以推荐的任何想法或套餐?谢谢
答案 0 :(得分:4)
上一个答案(仍然包含在下面)不适用于大型数据集。原因是我们需要计算每对shops
和bus
的距离。因此,O(N*M)
商店和N
公共汽车的内存和计算均为M
。更具可扩展性的解决方案使用诸如KD树之类的数据结构来为每个商店执行最近邻搜索。这里的优点是计算复杂度变为O(M*logM)
用于构建公交车站的KD树,O(N*logM)
用于搜索每个车间的最近邻居。
为此,我们可以使用nn2
包中的RANN
。这里的复杂性是nn2
仅处理欧几里德距离并且不知道有关纬度/经度的任何信息。因此,我们需要将纬度/经度坐标转换为某些地图投影(即UTM)以便正确使用它(即,为了正确计算商店和公共汽车站之间的欧几里德距离)。
注意:以下借用Josh O&Brien的determining the UTM zone from a longitude和converting lat/long to UTM解决方案,所以他应该鞠躬。< / p>
## First define a function from Josh OBrien's answer to convert
## a longitude to its UTM zone
long2UTM <- function(long) {
(floor((long + 180)/6) %% 60) + 1
}
## Assuming that all points are within a zone (within 6 degrees in longitude),
## we use the first shop's longitude to get the zone.
z <- long2UTM(shops[1,"long"])
library(sp)
library(rgdal)
## convert the bus lat/long coordinates to UTM for the computed zone
## using the other Josh O'Brien linked answer
bus2 <- bus
coordinates(bus2) <- c("long", "lat")
proj4string(bus2) <- CRS("+proj=longlat +datum=WGS84")
bus.xy <- spTransform(bus2, CRS(paste0("+proj=utm +zone=",z," ellps=WGS84")))
## convert the shops lat/long coordinates to UTM for the computed zone
shops2 <- shops
coordinates(shops2) <- c("long", "lat")
proj4string(shops2) <- CRS("+proj=longlat +datum=WGS84")
shops.xy <- spTransform(shops2, CRS(paste0("+proj=utm +zone=",z," ellps=WGS84")))
library(RANN)
## find the nearest neighbor in bus.xy@coords for each shops.xy@coords
res <- nn2(bus.xy@coords, shops.xy@coords, 1)
## res$nn.dist is a vector of the distance to the nearest bus.xy@coords for each shops.xy@coords
## res$nn.idx is a vector of indices to bus.xy of the nearest bus.xy@coords for each shops.xy@coords
shops$Bus_Stop <- res$nn.dists <= 500
shops$Bus_ID <- ifelse(res$nn.dists <= 500, bus[res$nn.idx,"Bus_Stop_ID"], NA)
虽然更复杂,但这种方法更适合于您可能拥有大量商店和巴士站的现实问题。使用相同的提供数据:
print(shops)
## Shop_ID lat long Bus_Stop Bus_ID
##1 1 -34.03935 18.61796 TRUE A
##2 2 -33.92782 18.41052 FALSE <NA>
您可以使用包geosphere
执行此操作。在这里,我假设您的第一个数据框名为bus
,而您的第二个数据框名为shops
:
library(geosphere)
g <- expand.grid(1:nrow(shops), 1:nrow(bus))
d <- matrix(distGeo(shops[g[,1],c("long","lat")], bus[g[,2],c("long","lat")]),
nrow=nrow(shops))
shops$Bus_Stop <- apply(d, 1, function(x) any(x <= 500))
shops$Bus_ID <- bus[apply(d, 1, function(x) {
c <-which(x <= 500)
if(length(c)==0) NA else c[1]
}), "Bus_Stop_ID"]
print(shops)
## Shop_ID lat long Bus_Stop Bus_ID
##1 1 -34.03935 18.61796 TRUE A
##2 2 -33.92782 18.41052 FALSE <NA>
注意:
expand.grid
枚举shops
和bus
个停靠点的所有对组合。这些是shops
首先排序的。d
计算距离矩阵geosphere::distGeo
。请注意,输入需要(lon,lat)坐标。 distGeo
以米为单位返回距离。生成的d
矩阵为now(shops)
now(bus)
,以便每行显示从商店到每个公交车站的距离。any(x <= 500)
x
为d
中的每一行apply
应用MARGIN=1
函数,看看每个商店500米范围内是否有公交车站1}}。d
代替bus
,为500米范围内的第一家商店提取which
列(对应any
中的行)在我们的应用功能。然后使用此结果从Bus_Stop_ID
。bus
醇>
顺便说一句,我们不必apply
条件x <= 500
两次。以下内容也适用:
shops$Bus_ID <- bus[apply(d, 1, function(x) {
c <-which(x <= 500)
if(length(c)==0) NA else c[1]
}), "Bus_Stop_ID"]
shops$Bus_Stop <- !is.na(shops$Bus_ID)
并且更有效率。
数据:
bus <- structure(list(Bus_Stop_ID = structure(1:2, .Label = c("A", "B"
), class = "factor"), lat = c(-34.04199, -33.92312), long = c(18.61747,
18.44649)), .Names = c("Bus_Stop_ID", "lat", "long"), class = "data.frame", row.names = c(NA,
-2L))
shops <- structure(list(Shop_ID = 1:2, lat = c(-34.03935, -33.92782),
long = c(18.617964, 18.41052), Bus_ID = structure(c(1L, NA
), .Label = c("A", "B"), class = "factor"), Bus_Stop = c(TRUE,
FALSE)), .Names = c("Shop_ID", "lat", "long", "Bus_ID", "Bus_Stop"
), row.names = c(NA, -2L), class = "data.frame")
答案 1 :(得分:1)
我的第一种方法是使用Euclidean distance并检查结果值是否大于或等于0.
然后,您可以使用IF子句并检查T / F条件。
我希望这会有所帮助。
PS:在我的想象中,500米的距离将是地球表面的一个相当平坦的表示,所以我认为不需要使用一些大地水准面包。