Question

我正在尝试将整个表从我的RDS实例（MySQL 5.7）迁移到S3（csv文件）或Hive。

该表共有2TB的数据。它有一个BLOB列，存储一个zip文件（通常为100KB，但它可以达到5MB）。

我使用Spark，Sqoop和AWS DMS进行了一些测试，但是他们都遇到了问题。我没有使用这些工具从RDS导出数据的经验，所以我非常感谢任何帮助。

对于此任务，最推荐哪一个？您认为哪种策略更有效？

Answer 1

您可以使用AWS管道将RDS数据复制到S3。这是一个example，它完成了这件事。

使用csv格式将转储转移到S3后，可以使用spark读取数据并将其注册为Hive Table。

val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive