无法在dataproc上运行datalab作业

时间:2017-05-31 05:54:11

标签: google-cloud-dataproc google-cloud-datalab

我已使用datalab初始化操作设置datalab以在dataproc主节点上运行:

gcloud dataproc clusters create <CLUSTER_NAME> \
--initialization-actions gs://<GCS_BUCKET>/datalab/datalab.sh \
--scopes cloud-platform

这在历史上已经奏效了。但是从30.5开始,我无法再运行任何代码,无论多么简单。我刚刚得到了#34; Running&#34;进度条。没有超时,没有错误消息。我该怎么调试呢?

1 个答案:

答案 0 :(得分:2)

我刚刚创建了一个群集,它似乎对我有用。

看到“正在运行”通常意味着群集中没有足够的空间来安排Spark应用程序。当Python加载并创建YARN应用程序时,Datalab加载PySpark。在安排YARN应用程序之前,任何代码都将被阻止。

在默认的2节点n1-standard-4工作集群上,使用默认配置。只能有1个火花应用程序。您可以通过设置--properties spark.yarn.am.memory=1g或使用更大的群集来装入两个笔记本,但最终仍会达到每个群集运行笔记本的限制。