在Apache Spark中使用不同版本的hadoop客户端库

时间:2018-12-14 13:30:33

标签: apache-spark

我正在尝试并行运行两个或多个作业。所有作业都使用相同的输出路径写入追加数据,问题是完成的第一个作业会进行清理并擦除_temporary文件夹,这会导致其他作业引发异常。

使用hadoop-client 3,有一个配置标志来禁用此文件夹的自动清理 mapreduce.fileoutputcommitter.cleanup.skipped

我能够从spark-core中排除依赖项,并使用maven添加新的hadoop-client。这对于master = local来说运行良好,但我不认为这是正确的。

我的问题是

  • 是否可以在apache spark中使用不同的hadoop-client库(例如,具有apache spark 2.3的hadoop-client版本3),正确的方法是什么?
  • 是否有更好的方法在同一路径下以并行方式运行多个作业?

0 个答案:

没有答案