我正在尝试将整个表从我的RDS实例(MySQL 5.7)迁移到S3(csv文件)或Hive。
该表共有2TB的数据。它有一个BLOB列,存储一个zip文件(通常为100KB,但它可以达到5MB)。
我使用Spark,Sqoop和AWS DMS进行了一些测试,但是他们都遇到了问题。我没有使用这些工具从RDS导出数据的经验,所以我非常感谢任何帮助。
对于此任务,最推荐哪一个?您认为哪种策略更有效?
答案 0 :(得分:0)
您可以使用AWS管道将RDS数据复制到S3。这是一个example,它完成了这件事。
使用csv格式将转储转移到S3后,可以使用spark读取数据并将其注册为Hive Table。
val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive