将Hive表迁移到redshift

时间:2018-03-14 10:00:16

标签: hive amazon-redshift data-migration

让我解释一下这个场景: 我有数百个hive表存储在S3(ORC,Parquet)上,所以要清楚没有HDFS。 现在,我有兴趣将其中一些迁移到Redshift来运行一些性能测试。 我知道redshift不支持ORC,Parquet所以我需要创建一些CSV / JSON才能使用COPY命令。 我正在考虑使用Hive本身创建临时CSV表,然后迁移到Redshift。我也在考虑使用Spark来移动这些数据。 有这种情况经验的人吗?

2 个答案:

答案 0 :(得分:3)

您可以设置Redshift Spectrum,使S3表格看起来像Redshift表格,然后您可以直接查询数据或将其带入内部Redshift表格。
https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html

完全支持ORC和Parquet https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html

答案 1 :(得分:1)

有一种将数据迁移到redshift的简单方法。首先,您需要将该镶木地板或orc加载到Spark(pyspark,java或scala)中,然后您可以使用databricks包将这些数据直接插入到redshift中。以下是databricks包的链接,其中包含一些示例。

https://github.com/databricks/spark-redshift