将文件从一个 S3 存储桶转换为另一个

时间:2021-05-27 00:50:51

标签: amazon-web-services amazon-s3 aws-lambda orc

我是亚马逊 aws 的新手。我有一个用例从一个 s3 存储桶读取 ORC 文件,将其转换为 JSON 文件并写入另一个 s3 存储桶。 卷大约100G,每天大约有一千个文件。 我应该能够按需运行此程序或安排每天运行。我应该考虑哪些选项?

任何想法都会有所帮助

1 个答案:

答案 0 :(得分:0)

亚马逊雅典娜

您可以使用 Amazon Athena 通过 CREATE TABLE AS 命令转换文件格式。请参阅:Creating a Table from Query Results (CTAS) - Amazon Athena

问题变成了如何将命令发送到 Athena。为此,您可以安排一个 AWS Lambda 函数运行,它会启动一个 Amazon EC2 实例。然后,在实例上运行脚本以将所有命令发送到 Amazon Athena。请参阅:Auto-Stop EC2 instances when they finish a task - DEV Community

AWS Glue ETL 作业

或者,您可以创建一个使用 Spark 转换数据的 AWS Glue ETL 作业。请参阅:Built-In Transforms - AWS Glue