我在AWS S3中有超过1200个JSON文件需要转换为Parquet并拆分成较小的文件(我正在为Redshift Spectrum准备它们)。我试图创建一个Lambda函数,为我每个文件执行此操作。但是该函数需要很长时间才能完成或消耗大量内存,因此在完成之前结束。文件大约3-6 GB。
顺便说一下。我使用Python。
我不想为此启动EC2,因为这需要永远完成。
我想就如何做到这一点提出一些建议。
答案 0 :(得分:0)
AWS Glue对于此类任务非常有用。您可以创建粘合作业以将json格式日转换为镶木地板格式并将其保存到您选择的S3存储桶中。 https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/