如何配置AWS EMR以将s3用作hdfs存储

时间:2018-05-10 11:35:27

标签: hdfs emr amazon-emr elastic-map-reduce

我正在尝试使用以下配置创建EMR群集,但在Bootstrap阶段失败。我正在使用的EMR版本是EMR 5.13.0

[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.defaultFS": "s3://my-s3-bucket",
      "fs.s3a.imp": "org.apache.hadoop.fs.s3.S3FileSystem"
    }
  }
]

如果删除此配置,群集将成功配置。 知道如何s3支持hdfs配置吗?

1 个答案:

答案 0 :(得分:2)

简而言之,您想要实现的目标是不可能的。

原因: HDFS是Hadoop FileSystem API的一种实现 - 它是基于POSIX文件系统行为建模的。

虽然EMR文件系统(EMRFS)是核心的对象存储,它模仿所有Amazon EMR集群用于从Amazon EMR直接读取和写入常规文件到Amazon S3的HDFS。它仍然违反了Hadoop FileSystem API的一些要求,被认为是HDFS的替代品。请参阅"对象存储与文件系统"上面链接中的部分。

话虽如此,您仍然可以使用Amazon S3作为EMR上的存储选项,而无需使用URI方案s3://进行任何配置。

希望这能回答你的问题。