应用错误收集

我正在使用ETL管道来使用AWS Glue批处理作业将JSON文件转换为Parquet格式（存储成本），然后使用RedShift External表使用Parquet文件查询S3存储桶。

我的障碍是如何处理Parquet文件的多个版本，以便外部表查询Parquet文件的最新版本或强制AWS Glue覆盖Parquet文件并始终维护最新版本。

--------------------------------------------------------------------------------------------------------------------
| Day | JSON (S3)   | JSON Ver  |Parquet (S3)                         | External Table Query Data          |
--------------------------------------------------------------------------------------------------------------------
| 1   | temp.json   |   1.0     |part-00000-9n83b353-c000.snappy.parquet|  Count 1, includes Parquet i.e. 1.0          |
--------------------------------------------------------------------------------------------------------------------
| 2   | temp.json   |   2.0     |part-00000-7s34s653-c000.snappy.parquet|  Count 2, includes both version, Parquet 1.0 & 2.0|
--------------------------------------------------------------------------------------------------------------------

作为一项服务，S3-AWSGlue-Redshift Spectrum可以满足我的实现方案，但是希望对如何处理版本问题提出建议。

从AWS Glue对Parquet文件进行版本控制，以使用Redshift Spectrum

0 个答案: