我已使用datalab初始化操作设置datalab以在dataproc主节点上运行:
gcloud dataproc clusters create <CLUSTER_NAME> \
--initialization-actions gs://<GCS_BUCKET>/datalab/datalab.sh \
--scopes cloud-platform
这在历史上已经奏效了。但是从30.5开始,我无法再运行任何代码,无论多么简单。我刚刚得到了#34; Running&#34;进度条。没有超时,没有错误消息。我该怎么调试呢?
答案 0 :(得分:2)
我刚刚创建了一个群集,它似乎对我有用。
看到“正在运行”通常意味着群集中没有足够的空间来安排Spark应用程序。当Python加载并创建YARN应用程序时,Datalab加载PySpark。在安排YARN应用程序之前,任何代码都将被阻止。
在默认的2节点n1-standard-4工作集群上,使用默认配置。只能有1个火花应用程序。您可以通过设置--properties spark.yarn.am.memory=1g
或使用更大的群集来装入两个笔记本,但最终仍会达到每个群集运行笔记本的限制。