Google Cloud上的Dataproc群集执行的Spark作业卡在任务ws://localhost:8090/exchange_service
错误日志显示PythonRDD.scala:446
Could not find valid SPARK_HOME while searching
...路径
问题是,默认情况下应在数据集群上设置SPARK_HOME。 其他不使用RDD的火花工作效果很好。
在群集初始化期间,我不会重新安装spark(但我已尝试过,我之前认为这会导致问题)。
我还发现在执行任务一分钟后我的所有遗嘱执行人都被删除了。
是的,我试图运行以下初始化操作,但它没有帮助:
/hadoop/yarn/nm-local-dir/usercache/root/
任何帮助?
答案 0 :(得分:1)
我正在使用自定义映射功能。当我将函数放到一个单独的文件中时,问题就消失了。