具有大型地理空间数据集的数据科学工作流程

时间:2017-06-28 10:13:49

标签: python-2.7 docker amazon-s3 gdal google-earth-engine

我对码头工作方法比较陌生,所以请耐心等待。

目标是使用开源可复制方法将大型地理空间数据集摄取到Google Earth Engine。我把所有东西都放在我的本地机器和Google Compute Engine上,但是也想让其他人也可以使用这种方法。

大型静态地理空间文件(NETCDF4)目前存储在Amazon S3和Google云端存储(GEOTIFF)上。我需要一些基于python的模块来使用命令行界面将数据转换并摄取到Earth Engine中。这必须只发生一次。数据转换不是很重,可以通过一个 fat实例(32GB RAM,16个内核需要2个小时)来完成,不需要集群。

我的问题是我应该如何处理Docker中的大型静态数据集。我想到了以下选项,但想了解最佳实践。

1)使用docker并将amazon s3和Google Cloud Storage存储桶安装到docker容器中。

2)将大型数据集复制到docker镜像并使用Amazon ECS

3)只需使用AWS CLI

4)在Python中使用Boto3

5)我还不知道的第五个选项

我使用的python模块是a.o。:python-GDAL,pandas,earth-engine,subprocess

0 个答案:

没有答案