修改

Question

假设我有一个名为zone的数据文件，1994个2D个协调员字符串表示多边形顶点的坐标，如下所示（每行的RHS上的第一个数字表示zone）

c1 <- "1", "1 21, 31 50, 45 65, 75 80"

c2 <- "2", "3 20, 5 15, 2 26, 70 -85, 40 50, 60 80"

.....

c1993 <- "1993", "3 2, 2 -5, 0 60, 7 -58, -12 23, 56 611, 85 152"

c1994 <- "1994", "30 200, 50 -15, 20 260, 700 -850, -1 2, 5 6, 8 15"

现在我想以这样的方式操纵这些字符串，即给定一对随机的lat-lon（假设12和20），我可以比较一下它是否属于第一个多边形，第二个多边形，第三个多边形，......或第1994个多边形。强力解决方案是：将x-coordinate（= 12）与所有4 x - 坐标和y-coordinate进行比较（ = 20) to all the 4 y -coordinates in c1 and c2 , respectively. The conclusion would be whether there is a valid **sandwich** inequality for each given coordinate x and y`。

例如，通过使用上述解决方案流程，点(12,20)将位于c1而不是c2。

我的问题：我怎样才能在R中实现这个目标？

我的尝试：感谢StéphaneLaurent的帮助，我能够生成所有矩阵，每个矩阵都有一定的大小，用于存储每个多边形的所有顶点的lat-lon对以下代码：

 zone <- read_delim("[directory path to zone.csv file]", delim = ",", col_names = TRUE)
for(i in 1:nrow(zone)){
  zone$geo[i] = substr(zone$geo[i],10,135)
}
zone <- zone[complete.cases(zone),]

 Numextract <- function(string){
    unlist(regmatches(string, gregexpr("[[:digit:]]+\\.*[[:digit:]]*", string)))
 }

for(i in 1:nrow(zone)){
        poly1 <- matrix(as.numeric(Numextract(zone$geo[i])),i, ncol=2, byrow=TRUE)
        poly2 <- cbind(poly1, c(i))
}

但是，正如您可能看到的，我需要找到一种方法索引与for()循环期间生成的每个区域对应的每个矩阵。原因是因为之后，我可以使用另一个for()循环来确定一个点属于哪个区域！但是我无法解决这个问题，所以有人可以帮我详细解释一下代码吗？

实际数据集
Zone and polygons dataset

Lat-Lon pairs dataset

Answer 1

首先，将多边形定义为矩阵，每行代表一个顶点：

poly1 <- rbind(c(1,21), c(31,50), c(45,65), c(75,80))
poly2 <- rbind(c(3,20), c(5,15), c(2,26), c(70,-85))

定义要测试的点：

point <- c(12,20)

现在，使用pip2d包的ptinpoly功能：

> library(ptinpoly)
> pip2d(poly1, rbind(point))
[1] -1
> pip2d(poly2, rbind(point))
[1] 1

这意味着（请参阅?pip2d）该点位于poly1之内且位于poly2之内。

请注意rbind(point)中的pip2d。我们使用rbind因为我们通常可以在同一个多边形中为多个点运行测试。

如果您需要转换帮助

c1 <- "1 21, 31 50, 45 65, 75 80"

到

poly1 <- rbind(c(1,21), c(31,50), c(45,65), c(75,80))

那么也许你应该打开另一个问题。

修改

好的，不要打开另一个问题。您可以按照以下步骤进行操作。

c1 <- "1 21, 31 50, 45 65, 75 80"

Numextract <- function(string){
  unlist(regmatches(string, gregexpr("[[:digit:]]+\\.*[[:digit:]]*", string)))
}

poly1 <- matrix(as.numeric(Numextract(c1)), ncol=2, byrow=TRUE)

给出了：

> poly1
     [,1] [,2]
[1,]    1   21
[2,]   31   50
[3,]   45   65
[4,]   75   80

第二次编辑

对于您的第二个问题，您的数据太大了。我能看到的唯一解决方案是将数据拆分成更小的部分。

但首先，似乎pip2d函数也导致R会话崩溃。因此，请使用包pnt.in.poly中的其他函数SDMTools。

这是对此功能的一个小修改，通过删除无用的输出使其更快：

library(SDMTools)
pnt.in.poly2 <- function(pnts, poly.pnts){
  if (poly.pnts[1, 1] == poly.pnts[nrow(poly.pnts), 1] && 
      poly.pnts[1, 2] == poly.pnts[nrow(poly.pnts), 2]){ 
    poly.pnts = poly.pnts[-1, ]
  }
  out = .Call("pip", pnts[, 1], pnts[, 2], nrow(pnts), poly.pnts[,1], poly.pnts[, 2], nrow(poly.pnts), PACKAGE = "SDMTools")
  return(out)
}

现在，如前所述，将lat_lon分成小块，每个长度为100万，（除了最后一个，更小）：

lat_lon_list <- vector("list", 70)
for(i in 1:69){
  lat_lon_list[[i]] = lat_lon[(1+(i-1)*1e6):(i*1e6),]
}
lat_lon_list[[70]] <- lat_lon[69000001:nrow(lat_lon),]

现在，运行以下代码：

library(data.table)
for(i in 1:70){
  DT <- data.table(V1 = pnt.in.poly2(lat_lon_list[[i]], polys[[1]]))
  for(j in 2:length(polys)){
    DT[, (sprintf("V%d",j)):=pnt.in.poly2(lat_lon_list[[i]], polys[[j]])]
  }
  fwrite(DT, sprintf("results%02d.csv", i))
  rm(DT)
}

如果有效，它应生成70个csv文件，result01.csv，...，result70.csv，每个文件大小为1000000x1944（最后一个，较小），然后是＆＃ 39;可以在Excel中打开它们。

第3次编辑

我已尝试过该代码，但我收到了错误：Error: cannot allocate vector of size 7.6 Mb。

我们需要更精细的分裂：

lat_lon_list <- vector("list", 2*69+1)
for(i in 1:(2*69)){
  lat_lon_list[[i]] = lat_lon[(1+(i-1)*1e6/2):(i*1e6/2),]
}
lat_lon_list[[2*69+1]] <- lat_lon[69000001:nrow(lat_lon),]

for(i in 1:(2*69+1)){
  DT <- data.table(V1 = pnt.in.poly2(lat_lon_list[[i]], polys[[1]]))
  for(j in 2:length(polys)){
    DT[, (sprintf("V%d",j)):=pnt.in.poly2(lat_lon_list[[i]], polys[[j]])]
  }
  fwrite(DT, sprintf("results%02d.csv", i))
  rm(DT)
}

确定给定的lat-lon是否属于多边形

1 个答案:

修改

第二次编辑

第3次编辑