我在雅典娜有一张桌子,其结构如下,
s3://bucketName/pathToTable/partition1/partition2/year=/month=/day=/otherPartitions
即分区由单独的日期组件完成,而不是日期本身。年,月和日的分区是整数。
找到我有数据的最新日期的有效方法是什么?
例如,我可以找到如下日期,
SELECT
MAX(CAST(CONCAT(CAST(year_utc AS VARCHAR(4)), '-', CAST(month_utc AS VARCHAR(2)), '-', CAST(day_utc AS VARCHAR(2)))))
FROM
database.table;
但这是运行昂贵的查询。我想知道是否有更好的方法可以做到这一点。我还考虑过要从S3抓取原始文件密钥,但是前2个分区也使得这样做不可行。