如何从Hadoop datalake导入hive表到AWS RDS?

时间:2018-03-09 17:42:50

标签: amazon-web-services hadoop apache-spark impala

我需要有关将数据从Hadoop datalake(经过Kerberos身份验证)导入AWS的建议。 Hive表中的所有表都应该位于s3中,然后需要加载到AWS RDS。 我考虑过以下几种选择: 1)AWS胶水? 2)Spark连接到hive Metastore? 3)从AWS连接到impala?

大约有50个表要导入。我如何维护架构?是否最好导入数据,然后在RDS中创建单独的模式?

1 个答案:

答案 0 :(得分:0)

就个人而言,我会转储所有需要移动的表的列表。

然后,对它们全部运行SHOW CREATE TABLE,然后保存查询。

运行distcp,或者您想将数据移动到S3 / EBS

编辑每个create table命令以指定云数据存储中的Hive表位置。我相信您需要将所有这些作为外部表格,因为您无法将数据直接放入Hive仓库目录并让Metastore立即知道它。

在AWS Hive连接上运行所有命令。

我有同事使用过CircusTrain

Impala和Spark适合处理。你需要在这里主要处理Hive Metastore。