hive - 将Hive表迁移到redshift

将Hive表迁移到redshift

时间：2018-03-14 10:00:16

标签： hive amazon-redshift data-migration

让我解释一下这个场景：我有数百个hive表存储在S3（ORC，Parquet）上，所以要清楚没有HDFS。现在，我有兴趣将其中一些迁移到Redshift来运行一些性能测试。我知道redshift不支持ORC，Parquet所以我需要创建一些CSV / JSON才能使用COPY命令。我正在考虑使用Hive本身创建临时CSV表，然后迁移到Redshift。我也在考虑使用Spark来移动这些数据。有这种情况经验的人吗？

2 个答案:

答案 0 :(得分：3)

您可以设置Redshift Spectrum，使S3表格看起来像Redshift表格，然后您可以直接查询数据或将其带入内部Redshift表格。
https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html

完全支持ORC和Parquet https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html

答案 1 :(得分：1)

有一种将数据迁移到redshift的简单方法。首先，您需要将该镶木地板或orc加载到Spark（pyspark，java或scala）中，然后您可以使用databricks包将这些数据直接插入到redshift中。以下是databricks包的链接，其中包含一些示例。

https://github.com/databricks/spark-redshift