我有一个EMR集群(v5.12.1)和我的S3存储桶设置,使用相同的AWS SSE-KMS密钥进行静态加密。
从S3读取数据工作正常,但是当我使用Pyspark脚本写入我的S3存储桶时 - 使用默认的' aws / s3'来加密拼花文件。键。
如何让Spark使用正确的KMS密钥?
群集有Hadoop 2.8.3和Spark 2.2.1
答案 0 :(得分:2)
解决方案是不要使用输出文件的s3a://或s3n://路径。
如果仅使用s3://前缀,文件将写入S3并使用正确的SSE-KMS密钥加密。
答案 1 :(得分:0)
如果您使用 CMK,请确保在配置部分下创建 EMR 集群时使用它:
{
"Classification": "emrfs-site",
"Properties": {
"fs.s3.enableServerSideEncryption": "true",
"fs.s3.serverSideEncryption.kms.keyId": "<YOUR_CMK>"
}
}