由于无法重命名GCS中的错误,Spark Dataproc作业失败

时间:2019-01-29 06:24:13

标签: apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc

我有一个火花作业,由于以下错误而失败。

 org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 34338.0 failed 4 times, most recent failure: Lost task 0.3 in stage 34338.0 (TID 61601, homeplus-cmp-transient-20190128165855-w-0.c.dh-homeplus-cmp-35920.internal, executor 80): java.io.IOException: Failed to rename FileStatus{path=gs://bucket/models/2018-01-30/model_0002002525030015/metadata/_temporary/0/_temporary/attempt_20190128173835_34338_m_000000_61601/part-00000; isDirectory=false; length=357; replication=3; blocksize=134217728; modification_time=1548697131902; access_time=1548697131902; owner=yarn; group=yarn; permission=rwx------; isSymlink=false} to gs://bucket/models/2018-01-30/model_0002002525030015/metadata/attempt_20190128173835_34338_m_000000_61601/attempt_20190128173835_34338_m_000000_61601/attempt_20190128173835_34338_m_000000_61601/attempt_20190128173835_34338_m_000000_61601/attempt_20190128173835_34338_m_000000_61601/attempt_20190128173835_34338_m_000000_61601/attempt_20190128173835_34338_m_000000_61601/part-00000

由于Spark作业能够写入临时文件,因此我无法确定缺少的权限,因此我假设已经具有写入权限。

1 个答案:

答案 0 :(得分:1)

每个OP注释中,权限配置存在问题:

  

因此,我发现我在存储桶中仅扮演Storage Legacy Owner角色。我还添加了Storage Admin角色,这似乎可以解决问题。谢谢。