应用错误收集

将Hive表从HDFS移动到Amazon Redshift

时间：2015-03-05 10:15:12

标签： r hadoop hive amazon-redshift

我尝试将通过加入4-5个数据集而创建的Hive表转移到Redshift。该过程应该如何实施？

我们在边缘节点上有R可用。 Hive表必须首先转移到S3，然后从s3转移到Redshift。这是唯一的方法吗？

是否可以使用R，即使用RHive包将我的数据集从HDFS移动到R，然后将此数据集从R移动到Redshift？

1 个答案:

答案 0 :(得分：0)

您可以使用RJDBC连接到Redshift（Redshift是pgsql）。因此，您可以使用从hive中读取一行，并使用R中的RJDBC将其加载到Redshift。

您创建1000或更多的批次并插入Redshift。

如果你正在使用insert方法，那么使用每列的编码类型在redhshift中创建表。

加载数据到s3然后复制表单s3的工作速度比插入命令快。 copy将默认应用压缩（编码）。

所以我建议你从HDFS使用load to s3然后复制命令。