应用错误收集

时间：2018-03-09 17:42:50

标签： amazon-web-services hadoop apache-spark impala

我需要有关将数据从Hadoop datalake（经过Kerberos身份验证）导入AWS的建议。 Hive表中的所有表都应该位于s3中，然后需要加载到AWS RDS。我考虑过以下几种选择： 1）AWS胶水？ 2）Spark连接到hive Metastore？ 3）从AWS连接到impala？

大约有50个表要导入。我如何维护架构？是否最好导入数据，然后在RDS中创建单独的模式？

答案 0 :(得分：0)

就个人而言，我会转储所有需要移动的表的列表。

然后，对它们全部运行SHOW CREATE TABLE，然后保存查询。

运行distcp，或者您想将数据移动到S3 / EBS

编辑每个create table命令以指定云数据存储中的Hive表位置。我相信您需要将所有这些作为外部表格，因为您无法将数据直接放入Hive仓库目录并让Metastore立即知道它。

在AWS Hive连接上运行所有命令。

我有同事使用过CircusTrain

Impala和Spark适合处理。你需要在这里主要处理Hive Metastore。