AWS EMR SSE一致视图

时间:2014-12-05 20:07:34

标签: encryption amazon-web-services emr

我正在尝试使用以下CLI命令在AWS上创建EMR集群,但它不会在一致视图中创建集群,并且服务器端加密标志未设置(fs.s3.consistent和fs.s3.enableServerSideEncryption都是在emrfs-site.xml中为false)。怎么了?

aws emr create-cluster \ --name "reporting-aws-cli-temp" \ --instance-type m1.medium \ --service-role EMR_DefaultRole \ --instance-count 2 \ --ami-version 3.3.1 \ --ec2-attributes SubnetId=subnet-111111,KeyName=someKey,InstanceProfile=server-role \ --log-uri s3://some-logs \ --emrfs SSE=true,Consistent=true,RetryPeriod=3,Args=[fs.s3.serverSideEncryptionAlgorithm=AES256]

问题的第二部分是我有如下

问题陈述 我们要分析的CSV数据将定期从AWS EC2实例(服务器)发布到Amazon S3存储桶,我们将使用Hive从Amazon S3存储桶读取数据并进行分析。我在Amazon S3上发布的数据需要加密,hive必须首先解密文件然后进行分析

现状 我们能够实现以下目标 定期将文件以3个单独的方式发布到S3

  1. 我们可以下载和阅读的普通CSV文件
  2. 在客户端使用Key保护数据,然后上传文件(参考:http://docs.aws.amazon.com/AmazonS3/latest/dev/UsingClientSideEncryption.html
  3. 使用服务器端加密(SSE-S3)保护数据,然后上传(http://docs.aws.amazon.com/AmazonS3/latest/dev/serv-side-encryption.html
  4. 在AWS上创建EMR集群,并在其上安装Hive(版本0.13.0)。 我们能够创建外部表并添加分区以指向普通CSV数据并读取并对其进行简单分析 我们陷入困境的一点是,如果使用客户端加密或服务器端加密加密数据,hive如何在读取其中的数据之前解密文件中的数据。

1 个答案:

答案 0 :(得分:0)

使用以下参数启用加密

--emrfs Encryption=ServerSide,Args=[fs.s3.serverSideEncryptionAlgorithm=AES256]