AWS Athen-减少扫描尺寸

时间:2017-11-13 18:31:04

标签: amazon-athena

如何缩小数据扫描尺寸以选择'在AWS athena中查询。只扫描其中一列。

实施例: SELECT * FROM TABLE1 WHERE STATUS ='失败';

2 个答案:

答案 0 :(得分:1)

减少扫描大小的最简单方法是根据STATUS值对数据进行分区。

请参阅user guide for information about partitioning。但是,您可能还需要考虑一种列式格式,例如Apache Parquet,这是一种supported by Athena的柱状数据存储和交换格式。

使用列式格式很有用,因为Athena只会读取它必须满足查询的列。对于file:///查询,它通常不会产生太大影响,但如果您只对几十或几百列中的几列感兴趣,那么I / O节省可能会很大。此外,Parquet(和ORC,也是Athena支持的竞争柱状格式)支持压缩,因此即使访问所有列,它仍然比未压缩的CSV或JSON节省了很多。

答案 1 :(得分:1)

Athena performance tuning tips。此AWS博客提供了有关减少扫描数据以及提高性能的多个提示。我看到的主要是: