Question

我有两个空间数据集。一个数据集包含许多指定不同要素（例如河流，植被）的多边形（总计超过15万个）。另一个数据集包含更少的指定不同区域的多边形（500）。我需要将这两个数据集相交以获得不同区域中的要素。我可以通过不同的功能对第一个数据集进行子集化。如果使用小要素（2,500个多边形）的子集，则与区域的交点会非常快（5分钟）。但是，如果我想对更大的要素子集（20,000个多边形）感兴趣，则计算会非常耗时（我在两个小时后终止了它）。而且这甚至不是我需要相交的最大特征（50,000个多边形）。

这是我运行的代码片段：

    clean_intersect_save = function(geo_features, areas) {

  # make geometries valid
  data_valid_geoms = st_parallel(sf_df = st_geometry(geo_features), 
                                 sf_func = st_make_valid, 
                                 n_cores = 4)

  # remove unnecessary columns
  data_valid = st_drop_geometry(x) %>% select("feature")
  data_valid = st_sf(data_clean, geometry = data_valid_geoms)

  # intersect the geo-features and areas
  data_valid_split = st_parallel(sf_df = bezirke, 
                                 sf_func = st_intersection, 
                                 n_cores = 4,
                                 data_clean)

  # save shp file
  st_write(data_valid_split, "data_valid_splir.shp")

  return(data_valid_split)
}

两个输入均为sf数据帧。我发现st_parallel是一个函数 here。

我的问题是：经验丰富的空间数据人们通常将如何解决这一任务？我是否需要更多的核心和/或更多的耐心？我使用SF错误吗？ R / sf是错误的工具吗？

感谢您的帮助。这是我的第一个空间数据分析项目，非常抱歉，如果我忽略了一些明显的想法。

Answer 1

由于这个模糊的问题可能无法真正回答，我会自己回答。

感谢@Chris和@TimSalabim的帮助。我最终结合了两种想法。

我最终使用了PostGIS，根据我的经验，这是一种非常直观的方式来处理空间数据。对我来说，加快相交计算速度的三件事是：

按照我的描述，从shapefile加载时，空间数据存储在MULTIPOLYGONS中。我使用ST_DUMP将其扩展为POLYGONS： https://postgis.net/docs/ST_Dump.html
我在多边形上创建了空间索引：https://postgis.net/workshops/postgis-intro/indexing.html
我使用ST_Intersection和ST_Intersects的组合仅在确实需要时才调用昂贵的ST_Intersection（正如@TimSalabim所建议的，这种方法也可以加快R中的速度。...但是我目前没有时间测试这种方法）：https://postgis.net/2014/03/14/tip_intersection_faster/

R SF中的大空间数据集相交

1 个答案: