Spark Streaming Checkpointing抛出S3异常

时间:2017-06-23 08:18:46

标签: apache-spark amazon-s3 spark-streaming

我在区域eu-central-1中使用S3存储桶作为我的火花流工作的检查点目录。

它将数据写入该目录,但每10个批处理失败,但出现以下异常:

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 4040.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4040.0 (TID 0, 127.0.0.1, executor 0): com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: ..., AWS Error Code: null, AWS Error Message: Bad Request

发生这种情况时,批处理数据将丢失。我该如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

它最终成为eu-central-1中存储桶的身份验证例外,因为该S3区域使用V4身份验证。

它是在驱动程序本身上配置的,而不是在工作人员上配置的,这就是为什么有些人工作而有些人没有。