如何将数据集放在gcloud kubernetes集群上?

时间:2018-04-05 13:45:02

标签: kubernetes google-cloud-platform dask dask-distributed

我初始化了一个gcloud Kubernetes集群,我在本地计算机上使用Dask Client连接到集群,但我似乎无法找到有关如何将我的数据集上传到集群。

我最初尝试在我的本地RAM中加载数据集来本地运行Dask,但显然它是通过网络发送的,并且群集在执行任务时仅以2%的利用率运行。

有没有办法将数据集放到Kubernetes集群上,这样我可以获得100%的CPU利用率?

1 个答案:

答案 0 :(得分:1)

许多人将数据存储在云对象商店中,例如亚马逊的S3,Google云存储。

如果您对Dask特别感兴趣,可以使用以下协议在大多数数据提取功能中支持这些数据存储:

import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')

您还需要安装相关的Python库才能访问此云存储(本例中为gcsfs)。有关详细信息,请参阅http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations