我正在使用ETL管道来使用AWS Glue批处理作业将JSON文件转换为Parquet格式(存储成本),然后使用RedShift External表使用Parquet文件查询S3存储桶。
我的障碍是如何处理Parquet文件的多个版本,以便外部表查询Parquet文件的最新版本或强制AWS Glue覆盖Parquet文件并始终维护最新版本。
-------------------------------------------------------------------------------------------------------------------- | Day | JSON (S3) | JSON Ver |Parquet (S3) | External Table Query Data | -------------------------------------------------------------------------------------------------------------------- | 1 | temp.json | 1.0 |part-00000-9n83b353-c000.snappy.parquet| Count 1, includes Parquet i.e. 1.0 | -------------------------------------------------------------------------------------------------------------------- | 2 | temp.json | 2.0 |part-00000-7s34s653-c000.snappy.parquet| Count 2, includes both version, Parquet 1.0 & 2.0| --------------------------------------------------------------------------------------------------------------------
作为一项服务,S3-AWSGlue-Redshift Spectrum可以满足我的实现方案,但是希望对如何处理版本问题提出建议。