我对码头工作方法比较陌生,所以请耐心等待。
目标是使用开源可复制方法将大型地理空间数据集摄取到Google Earth Engine。我把所有东西都放在我的本地机器和Google Compute Engine上,但是也想让其他人也可以使用这种方法。
大型静态地理空间文件(NETCDF4)目前存储在Amazon S3和Google云端存储(GEOTIFF)上。我需要一些基于python的模块来使用命令行界面将数据转换并摄取到Earth Engine中。这必须只发生一次。数据转换不是很重,可以通过一个 fat实例(32GB RAM,16个内核需要2个小时)来完成,不需要集群。
我的问题是我应该如何处理Docker中的大型静态数据集。我想到了以下选项,但想了解最佳实践。
1)使用docker并将amazon s3和Google Cloud Storage存储桶安装到docker容器中。
2)将大型数据集复制到docker镜像并使用Amazon ECS
3)只需使用AWS CLI
4)在Python中使用Boto3
5)我还不知道的第五个选项
我使用的python模块是a.o。:python-GDAL,pandas,earth-engine,subprocess