将数据从redshift直接复制到EMR集群-这是一个好习惯吗?

时间:2018-08-13 18:53:22

标签: amazon-redshift amazon-emr

Amazon提供了非常详细的文档,用于将数据从EMR复制到Redshift(通过S3),但是似乎没有其他文档,这使我想知道加载数据是否是个好习惯从红移到EMR(直接或通过某种媒介)

理论上我不明白为什么不这样做,但我不知道它的后果

1 个答案:

答案 0 :(得分:0)

我认为您可以使用Redshift Unload。 将数据导出为Parquet,然后从EMR Hadoop(Spark,Hive)读取数据

UNLOAD ('select-statement')
TO 's3://object-path/name-prefix'
authorization
FORMAT PARQUET

https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html