将Hive表从HDFS移动到Amazon Redshift

时间:2015-03-05 10:15:12

标签: r hadoop hive amazon-redshift

我尝试将通过加入4-5个数据集而创建的Hive表转移到Redshift。该过程应该如何实施?

我们在边缘节点上有R可用。 Hive表必须首先转移到S3,然后从s3转移到Redshift。这是唯一的方法吗?

是否可以使用R,即使用RHive包将我的数据集从HDFS移动到R,然后将此数据集从R移动到Redshift?

1 个答案:

答案 0 :(得分:0)

您可以使用RJDBC连接到Redshift(Redshift是pgsql)。因此,您可以使用从hive中读取一行,并使用R中的RJDBC将其加载到Redshift。

您创建1000或更多的批次并插入Redshift。

如果你正在使用insert方法,那么使用每列的编码类型在redhshift中创建表。

加载数据到s3然后复制表单s3的工作速度比插入命令快。 copy将默认应用压缩(编码)。

所以我建议你从HDFS使用load to s3然后复制命令。