AWS Athena查询挂起并重新读取大量查询大小的数据

时间:2018-03-02 00:21:24

标签: amazon-web-services amazon-athena

我在Athena的S3桶中设置了一个新的日志表,如下图所示,其中Athena位于BucketName/

之上

我有一个运行良好的Athena系统,它基于相同的数据但没有下面列出的子目录结构。现在有了这个新的子目录结构,我可以看到数据在select * from table_name limit 100时正确显示,但当我执行类似count(x) by week的查询时,查询会挂起。

S3中的数据在GZipped文件夹中不超过100GB,但查询挂起超过20分钟并且说6.5TB已扫描,这听起来像是在循环和扫描相同的数据。我的猜测是它与这个目录结构有关,但是我在其他线程中看到的是Athena应该能够通过指向基础文件夹BucketName/

BucketName | | |---Year(2016) | | | |---Month(11) | | | | | |---Daily File Format YYYY-MM-DD-Data000.gz

任何建议将不胜感激!

创建表DDL

CREATE EXTERNAL TABLE {TEST_TABLE {1}} {foo1 {1}} {foo2的{1}} {foo3 {1}}日期(

1 个答案:

答案 0 :(得分:0)

通过添加

修复

PARTITIONED BY ( `year` string, `month` string)

在DDL语句中的模式定义之后。