无法直接将火花作业输出写入s3存储桶

时间:2017-08-09 09:28:25

标签: hadoop apache-spark amazon-s3

我有一个Spark作业,它将结果写入s3存储桶,就像输出存储桶名称看起来像这样s3a:// bucket_name /我收到错误

Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxx, AWS Error Code: NoSuchKey, AWS Error Message: null, S3 Extended Request ID: xxx

但是当我在输出桶中添加一个子文件夹(s3a:// bucket_name / subfolder /)时,它可以工作!

我使用hadoop-aws 2.7.3从s3读取。

问题是什么?

提前致谢。

1 个答案:

答案 0 :(得分:0)

不是火花虫。 S3客户端如何使用根目录的问题。他们是特殊的"。 HADOOP-13402有点看着它。您在那里的代码显然来自亚马逊自己的对象存储客户端,但它的行为方式明显相同。

以不同的方式考虑:你不会将工作交给" file:///"或" hdfs:///&#34 ;;一切都需要一个子目录。

对不起。