Question

我有一个EMR集群（v5.12.1）和我的S3存储桶设置，使用相同的AWS SSE-KMS密钥进行静态加密。

从S3读取数据工作正常，但是当我使用Pyspark脚本写入我的S3存储桶时 - 使用默认的＆＃39; aws / s3＆＃39;来加密拼花文件。键。

如何让Spark使用正确的KMS密钥？

群集有Hadoop 2.8.3和Spark 2.2.1

Answer 1

解决方案是不要使用输出文件的s3a：//或s3n：//路径。

如果仅使用s3：//前缀，文件将写入S3并使用正确的SSE-KMS密钥加密。

Answer 2

如果您使用 CMK，请确保在配置部分下创建 EMR 集群时使用它：

{
    "Classification": "emrfs-site",
    "Properties": {
                   "fs.s3.enableServerSideEncryption": "true",
                   "fs.s3.serverSideEncryption.kms.keyId": "<YOUR_CMK>"
                  }
}

AWS EMR - 使用正确的加密密钥写入S3

2 个答案: