无法在dataproc上找到有效的SPARK_HOME

时间:2018-01-26 09:13:35

标签: apache-spark pyspark yarn rdd google-cloud-dataproc

Google Cloud上的Dataproc群集执行的Spark作业卡在任务ws://localhost:8090/exchange_service

错误日志显示PythonRDD.scala:446

下的Could not find valid SPARK_HOME while searching ...路径

问题是,默认情况下应在数据集群上设置SPARK_HOME。 其他不使用RDD的火花工作效果很好。

在群集初始化期间,我不会重新安装spark(但我已尝试过,我之前认为这会导致问题)。

我还发现在执行任务一分钟后我的所有遗嘱执行人都被删除了。

是的,我试图运行以下初始化操作,但它没有帮助:

/hadoop/yarn/nm-local-dir/usercache/root/

任何帮助?

1 个答案:

答案 0 :(得分:1)

我正在使用自定义映射功能。当我将函数放到一个单独的文件中时,问题就消失了。