从AWS Glue对Parquet文件进行版本控制,以使用Redshift Spectrum

时间:2019-03-06 16:10:06

标签: amazon-web-services amazon-s3 parquet aws-glue amazon-redshift-spectrum

我正在使用ETL管道来使用AWS Glue批处理作业将JSON文件转换为Parquet格式(存储成本),然后使用RedShift External表使用Parquet文件查询S3存储桶。

我的障碍是如何处理Parquet文件的多个版本,以便外部表查询Parquet文件的最新版本或强制AWS Glue覆盖Parquet文件并始终维护最新版本。

--------------------------------------------------------------------------------------------------------------------
| Day | JSON (S3)   | JSON Ver  |Parquet (S3)                         | External Table Query Data          |
--------------------------------------------------------------------------------------------------------------------
| 1   | temp.json   |   1.0     |part-00000-9n83b353-c000.snappy.parquet|  Count 1, includes Parquet i.e. 1.0          |
--------------------------------------------------------------------------------------------------------------------
| 2   | temp.json   |   2.0     |part-00000-7s34s653-c000.snappy.parquet|  Count 2, includes both version, Parquet 1.0 & 2.0|
--------------------------------------------------------------------------------------------------------------------

作为一项服务,S3-AWSGlue-Redshift Spectrum可以满足我的实现方案,但是希望对如何处理版本问题提出建议。

0 个答案:

没有答案