如何使用Amazon Glue中的自定义Pyspark读取netCDF数据?

时间:2019-02-05 09:36:41

标签: amazon-web-services amazon-s3

我正在创建一个数据管道以读取S3中的NetCDF数据,并计划将带自定义PySpark的Amazon Glue用于ETL。

我可以使用任何特定的pyspark库来支持对S3中存储的数据进行netCDF操纵。

参考数据集如下:

https://aws.amazon.com/blogs/publicsector/accessing-noaas-goes-r-series-satellite-weather-imagery-data-on-aws/?fbclid=IwAR3K_TS89Yolra5IKltINsI8NcPf8dk9FgF2X_iRBNVBIBQxqAZOXPi8jkY

1 个答案:

答案 0 :(得分:0)

读取Glue上的NetCDF数据没有固有的支持,您可能必须使用纯spark implementation