如何将2TB表从RDS实例导出到S3或Hive?

时间:2017-10-02 12:26:43

标签: apache-spark amazon-s3 sqoop rds dms

我正在尝试将整个表从我的RDS实例(MySQL 5.7)迁移到S3(csv文件)或Hive。

该表共有2TB的数据。它有一个BLOB列,存储一个zip文件(通常为100KB,但它可以达到5MB)。

我使用Spark,Sqoop和AWS DMS进行了一些测试,但是他们都遇到了问题。我没有使用这些工具从RDS导出数据的经验,所以我非常感谢任何帮助。

对于此任务,最推荐哪一个?您认为哪种策略更有效?

1 个答案:

答案 0 :(得分:0)

您可以使用AWS管道将RDS数据复制到S3。这是一个example,它完成了这件事。

使用csv格式将转储转移到S3后,可以使用spark读取数据并将其注册为Hive Table。

val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive