我希望在OpenStreetMap数据集上执行空间查询。具体来说,我有一个覆盖地球的0.001度的多边形网格,我想选择符合各种标准的所有网格单元(例如包含一条主要道路)。仅使用Postgres / PostGIS,这是相当简单的;但考虑到我要查询的网格单元的数量,我假设这是一个非常耗时的操作。因此,我正在寻找分布式计算选项。
一些研究引导我发表一篇文章,展示了OpenStreetMap dataset into Parquet and then querying that data with Apache Spark SQL的加载。演示的查询不是空间的,我认为Apache Spark不支持空间查询。
GeoSpark似乎是一种选择,尽管它的原生输入不包括pbf格式。是否有转换来获取OpenStreetMap pbf文件,GeoSpark就绪?
使用分布式系统进行此类操作还有其他选择吗?