在Apache ORC或Apache Parquet中将数据从Aurora迁移到S3的最简单方法

时间:2017-05-12 02:32:49

标签: amazon-s3 parquet orc amazon-rds-aurora amazon-athena

雅典娜看起来不错。

要使用它,在我们的规模上,我们需要使它更便宜,性能更高,这意味着以ORC或Parquet格式保存我们的数据。

将整个Aurora数据库迁移到S3并将其转换为其中一种格式的绝对最简单方法是什么?

DMS和数据管道似乎让你在那里减去转换步骤...

1 个答案:

答案 0 :(得分:0)

转换步骤可以使用python完成,这里有一个示例:https://github.com/awslabs/aws-big-data-blog/tree/master/aws-blog-spark-parquet-conversion

请参阅此文章:http://docs.aws.amazon.com/athena/latest/ug/partitions.html

我会尝试DMS最初在s3中创建数据,然后使用上面的python。