Question

我有一个Spark作业，它将结果写入s3存储桶，就像输出存储桶名称看起来像这样s3a：// bucket_name /我收到错误

Caused by: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 404, AWS Service: Amazon S3, AWS Request ID: xxx, AWS Error Code: NoSuchKey, AWS Error Message: null, S3 Extended Request ID: xxx

但是当我在输出桶中添加一个子文件夹（s3a：// bucket_name / subfolder /）时，它可以工作！

我使用hadoop-aws 2.7.3从s3读取。

问题是什么？

提前致谢。

Answer 1

不是火花虫。 S3客户端如何使用根目录的问题。他们是特殊的＆＃34;。 HADOOP-13402有点看着它。您在那里的代码显然来自亚马逊自己的对象存储客户端，但它的行为方式明显相同。

以不同的方式考虑：你不会将工作交给＆＃34; file：///＆＃34;或＆＃34; hdfs：///＆＃34 ;;一切都需要一个子目录。

对不起。

无法直接将火花作业输出写入s3存储桶

1 个答案: