我想知道在同一目录HDFS中同时编写(SaveMode.Append)是不是一个坏习惯,有两个作业Spark。 你有什么想法吗?
答案 0 :(得分:1)
这不是一个糟糕的做法,但实际上是在一个接一个地锁定工作的情况下。一项工作的输出被遗漏的可能性非常高。
示例Spark job1和job2在hdfs path / user / output中写入。 Spark作业3从hdfs路径消耗。
如果您尝试从oozie构建作业链,则可能出现作业1和作业3运行的情况,而JOb 2在作业3之后运行导致Job2数据未从作业3中消耗