我在Athena的S3桶中设置了一个新的日志表,如下图所示,其中Athena位于BucketName/
我有一个运行良好的Athena系统,它基于相同的数据但没有下面列出的子目录结构。现在有了这个新的子目录结构,我可以看到数据在select * from table_name limit 100
时正确显示,但当我执行类似count(x) by week
的查询时,查询会挂起。
S3中的数据在GZipped文件夹中不超过100GB,但查询挂起超过20分钟并且说6.5TB已扫描,这听起来像是在循环和扫描相同的数据。我的猜测是它与这个目录结构有关,但是我在其他线程中看到的是Athena应该能够通过指向基础文件夹BucketName/
来解析子目录。 p>
BucketName
|
|
|---Year(2016)
| |
| |---Month(11)
| | |
| | |---Daily File Format YYYY-MM-DD-Data000.gz
任何建议将不胜感激!
创建表DDL
CREATE EXTERNAL TABLE
{TEST_TABLE {1}} {foo1 {1}} {foo2的{1}} {foo3 {1}}日期(
答案 0 :(得分:0)
通过添加
修复 PARTITIONED BY (
`year` string,
`month` string)
在DDL语句中的模式定义之后。