使用现有的dataproc集群运行dask

时间:2019-06-09 04:43:20

标签: dask google-cloud-dataproc dask-distributed

我有一个运行在Google Cloud Platform上的dataproc集群。我打算在dask客户端中传递此群集,而不是初始化新的dask-yarn群集

但是,我不能直接使用我的dataproc集群

#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)

#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)

1 个答案:

答案 0 :(得分:2)

DataProc创建一个新的Hadoop集群,dask-yarn用于创建在hadoop集群内部(无论在何处)运行的dask集群。要正常运行,就需要正确设置python环境和配置,就像hadoop上的其他任何工具(包括火花)一样。

我们没有dataproc专用指南,但适用于AWS等效EMR的指南在这里:http://yarn.dask.org/en/latest/aws-emr.html

要在DataProc上进行部署,您可能会创建与EMR引导操作等效的initialization actionhttps://github.com/dask/dask-yarn/blob/master/deployment_resources/aws-emr/bootstrap-dask