在AWS胶水作业中写入S3时,是否可以指定SSE:KMS密钥ID?

时间:2018-03-21 11:30:37

标签: amazon-web-services aws-glue amazon-kms

如果您按照AWS Glue添加作业向导创建脚本以将拼贴文件写入S3,您最终会得到类似的生成代码。

datasink4 = glueContext.write_dynamic_frame.from_options(
    frame=dropnullfields3,
    connection_type="s3",
    connection_options={"path": "s3://my-s3-bucket/datafile.parquet"},
    format="parquet",
    transformation_ctx="datasink4",
)

是否可以指定KMS密钥以便在数据桶中加密数据?

3 个答案:

答案 0 :(得分:2)

胶水scala工作

val spark: SparkContext = new SparkContext()
val glueContext: GlueContext = new GlueContext(spark)
spark.hadoopConfiguration.set("fs.s3.enableServerSideEncryption", "true")
spark.hadoopConfiguration.set("fs.s3.serverSideEncryption.kms.keyId", args("ENCRYPTION_KEY"))

我认为Python的语法应该有所不同,但想法相同

答案 1 :(得分:0)

要使用PySpark阐明答案,您可以选择

from pyspark.conf import SparkConf
[...]
spark_conf = SparkConf().setAll([
  ("spark.hadoop.fs.s3.enableServerSideEncryption", "true"),
  ("spark.hadoop.fs.s3.serverSideEncryption.kms.keyId", "<Your Key ID>")
])
sc = SparkContext(conf=spark_conf)

注意spark.hadoop前缀-或(较丑但较短)

sc._jsc.hadoopConfiguration().set("fs.s3.enableServerSideEncryption", "true")
sc._jsc.hadoopConfiguration().set("fs.s3.serverSideEncryption.kms.keyId", "<Your Key ID>")

其中sc是您当前的SparkContext。

答案 2 :(得分:0)

这不是必需的。也许是当问题首次提出时,但是可以通过创建安全配置并将其与胶粘作业相关联来实现。只需记住在脚本中包含此内容,否则它将无法做到:

job = Job(glueContext) 
job.init(args['JOB_NAME'], args)

https://docs.aws.amazon.com/glue/latest/dg/encryption-security-configuration.html https://docs.aws.amazon.com/glue/latest/dg/set-up-encryption.html