我正在尝试并行运行两个或多个作业。所有作业都使用相同的输出路径写入追加数据,问题是完成的第一个作业会进行清理并擦除_temporary文件夹,这会导致其他作业引发异常。
使用hadoop-client 3,有一个配置标志来禁用此文件夹的自动清理 mapreduce.fileoutputcommitter.cleanup.skipped 。
我能够从spark-core中排除依赖项,并使用maven添加新的hadoop-client。这对于master = local来说运行良好,但我不认为这是正确的。
我的问题是