将大型JSON文件转换并拆分为较小的Parquet文件

时间:2018-06-01 19:33:49

标签: python json amazon-web-services aws-lambda parquet

我在AWS S3中有超过1200个JSON文件需要转换为Parquet并拆分成较小的文件(我正在为Redshift Spectrum准备它们)。我试图创建一个Lambda函数,为我每个文件执行此操作。但是该函数需要很长时间才能完成或消耗大量内存,因此在完成之前结束。文件大约3-6 GB。

顺便说一下。我使用Python。

我不想为此启动EC2,因为这需要永远完成。

我想就如何做到这一点提出一些建议。

1 个答案:

答案 0 :(得分:0)

AWS Glue对于此类任务非常有用。您可以创建粘合作业以将json格式日转换为镶木地板格式并将其保存到您选择的S3存储桶中。 https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/