我在s3中有一个tsv文件,并且正在评估Athena查询的扫描大小(有无分区)。查询运行良好,没有任何分区并且没有扫描完整的数据。当我尝试分区时,无法加载该分区。这些文档对于了解如何为tsv数据加载分区不是很有帮助。
S3数据示例:
column1 column2 US column4
column1 column2 US column4
column1 column2 DE column4
column1 column2 DE column4
column1 column2 US column4
column1 column2 US column4
column1 column2 IT column4
column1 column2 IT column4
我想按第三列进行分区,因为这是我经常要查询的列。运行MSCK REPAIR TABLE显然没有加载分区。如何实现呢?
答案 0 :(得分:1)
在Athena中,分区需要分为S3文件夹。不支持按任意数据列进行分区。
因此,要使用分区,可以将必要的列设置为名称/值对作为文件夹名称,也可以将文件夹明确映射到分区。
这两种情况都在这里说明:
https://docs.aws.amazon.com/athena/latest/ug/partitions.html