使用Apache Beam

时间:2018-09-12 13:34:24

标签: python-2.7 google-bigquery geojson apache-beam wkt

我对Apache Beam比较陌生,所以请多多包涵。

BigQuery最近announced支持地理空间数据类型。地理空间数据有多种形式,BigQuery只能处理熟知文本(WKT)或GeoJSON格式的数据。首选GeoJSON,因为BigQuery可以解释“地理”(大地,地图上的曲线,地球上的直线)和“几何”(非大地,地图上的直线,地球上的曲线)中的数据

我的目标是创建一个可很好缩放的数据处理工具,并将转换Bigquery GeoJSON或WKT格式的地理空间数据类型,例如Geopackage或Shapefile。

一些假设:

  1. 为了高效处理:FeatureCollection中的每个功能都可以单独处理。换句话说,可以单独处理shapefile或geopackage中的每个要素并将其提取到bigquery中。结果的顺序可以与输入的顺序不同。优先级为Severless。
    1. 每个要素的几何将转换为GeoJSON或WKT。
    2. Python

我探索了利用Apache Beam的功能,想知道是否可以使用地理空间数据类型作为输入源。代替

from apache_beam.io import ReadFromText

Beam中是否有一种方法可以将geopackage或shapefile用作源?

接下来,它应该为每个要素启动并行处理,将几何转换为GeoJSON或WKT,然后将bigquery用作接收器。

如果不存在geopackage的来源,哪种方法适合将geopackage / shapefile数据获取到波束图中?

0 个答案:

没有答案