我尝试将通过加入4-5个数据集而创建的Hive表转移到Redshift。该过程应该如何实施?
我们在边缘节点上有R可用。 Hive表必须首先转移到S3,然后从s3转移到Redshift。这是唯一的方法吗?
是否可以使用R,即使用RHive包将我的数据集从HDFS移动到R,然后将此数据集从R移动到Redshift?
答案 0 :(得分:0)
您可以使用RJDBC连接到Redshift(Redshift是pgsql)。因此,您可以使用从hive中读取一行,并使用R中的RJDBC将其加载到Redshift。
您创建1000或更多的批次并插入Redshift。
如果你正在使用insert方法,那么使用每列的编码类型在redhshift中创建表。
加载数据到s3然后复制表单s3的工作速度比插入命令快。 copy将默认应用压缩(编码)。
所以我建议你从HDFS使用load to s3然后复制命令。