我有一个运行在Google Cloud Platform上的dataproc集群。我打算在dask客户端中传递此群集,而不是初始化新的dask-yarn群集
但是,我不能直接使用我的dataproc集群
#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)
#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)
答案 0 :(得分:2)
DataProc创建一个新的Hadoop集群,dask-yarn
用于创建在hadoop集群内部(无论在何处)运行的dask集群。要正常运行,就需要正确设置python环境和配置,就像hadoop上的其他任何工具(包括火花)一样。
我们没有dataproc专用指南,但适用于AWS等效EMR的指南在这里:http://yarn.dask.org/en/latest/aws-emr.html
要在DataProc上进行部署,您可能会创建与EMR引导操作等效的initialization action:https://github.com/dask/dask-yarn/blob/master/deployment_resources/aws-emr/bootstrap-dask