在AWS Athena中使用混合格式镶木地板和JSON

时间:2018-09-10 06:29:57

标签: amazon-athena

我有使用JSON编码的事件。每个事件都在对象结构中嵌套了一个数字标识符,用于指定事件的类型。

我想使用具有两列模式,事件类型和原始JSON的镶木地板将事件存储在S3中。这样,每当我需要进行仅使用某些类型事件的查询时,我就不必读取每个事件来了解其类型。

为了清楚起见,我希望使用Parquet,以便Athena可以通过阅读第一列来快速获取我关心的事件,然后使用第二列的内容(即原始JSON事件)执行查询。

这可能吗?怎么样?如果没有,关于如何通过仅访问要包含在查询中的事件来节省资源的建议?

1 个答案:

答案 0 :(得分:0)

您需要的是按事件类型将S3存储桶组织起来,并按Athena中定义的分区表来利用它。有关雅典娜分区here的更多信息。