AWS EMR - 使用正确的加密密钥写入S3

时间:2018-06-14 11:19:17

标签: encryption pyspark emr amazon-emr aws-kms

我有一个EMR集群(v5.12.1)和我的S3存储桶设置,使用相同的AWS SSE-KMS密钥进行静态加密。

从S3读取数据工作正常,但是当我使用Pyspark脚本写入我的S3存储桶时 - 使用默认的' aws / s3'来加密拼花文件。键。

如何让Spark使用正确的KMS密钥?

群集有Hadoop 2.8.3和Spark 2.2.1

2 个答案:

答案 0 :(得分:2)

解决方案是不要使用输出文件的s3a://或s3n://路径。

如果仅使用s3://前缀,文件将写入S3并使用正确的SSE-KMS密钥加密。

答案 1 :(得分:0)

如果您使用 CMK,请确保在配置部分下创建 EMR 集群时使用它:

{
    "Classification": "emrfs-site",
    "Properties": {
                   "fs.s3.enableServerSideEncryption": "true",
                   "fs.s3.serverSideEncryption.kms.keyId": "<YOUR_CMK>"
                  }
}