我有多个要并行执行的作业,这些作业使用动态分区将每日数据追加到同一路径中。
我面临的问题是在作业执行期间由spark创建的临时路径。多个作业最终共享同一个临时文件夹并引起冲突,这可能导致一个作业删除临时文件,而另一个作业失败,并显示一条错误消息,提示预期的临时文件不存在。
我们可以更改单个工作的临时路径还是有其他替代方法来避免出现问题
答案 0 :(得分:0)
要更改临时位置,您可以执行以下操作:
/opt/spark/bin/spark-shell --conf "spark.local.dir=/local/spark-temp"
spark.local.dir更改了读取和写入所有临时文件的位置,我建议在运行带有此参数的第一次会话之前,通过命令行建立和打开此位置的位置。