只有可抢占型工人的Dataproc Cluster

时间:2018-08-16 12:21:50

标签: pyspark google-cloud-platform google-cloud-dataproc

我目前正在试验Dataproc,并按照Google教程使用Jupyter和Spark来启动Hadoop集群。一切顺利。我使用以下命令:

gcloud dataproc clusters create test-cluster \
    --project proj-name \
    --bucket notebooks-storage \
    --initialization-actions \
        gs://dataproc-initialization-actions/jupyter/jupyter.sh

此命令启动一个集群,其中包含一个主服务器和两个工作器(VM类型:n1-standad-4)。

我尝试添加以下标志:

    --num-preemptible-workers 2

但是它只向两个以前的标准VM添加了两个可抢占的工作程序。我希望能够使我的所有工作人员都成为可伪造的VM,因为我的所有数据都存储在Google Cloud Storage中,并且我不在乎Hadoop存储的大小。

这听起来有事吗?有什么办法吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

通常,将群集完全或大部分为pVM并不是一个好主意。 pVM不能保证在创建群集时它们将可用,甚至从现在起的N小时内仍可在您的群集中使用。抢占对于工作(尤其是运行多个小时的工作)非常不利。同样,即使您的数据在GCS中,任何随机操作都会导致数据写入本地磁盘。可以将pVM视为补充的计算能力。

出于这些及其他原因,我们建议最多1:1的比例。

由于使用的是笔记本电脑,因此,另一种选择是使用单节点群集:https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/single-node-clusters