从文档中不清楚,是否需要在每次将新数据添加到分区时运行MSCK REPAIR TABLE
,还是仅在数据中出现一个新的分区值时(即,插入一个通过在特定路径中创建对象来创建S3中的新“文件夹” [我知道,S3中没有真正的文件夹]。
有人知道它应该如何工作吗?
答案 0 :(得分:3)
Athena依赖“配置单元表布局”,为此仅使用Glue元存储。 在Glue中,您注册的是分区,而不是单个的文件。
如果创建新的分区文件夹,则需要对其进行注册(这是MSCK REPAIR TABLE
的工作)。
如果仅添加新文件,则无需执行任何操作。
注意:MSCK REPAIR TABLE
不一定是发现新分区的更快方法。 Presto 319带有内置Hive connector procedure: sync_partition_metadata
,可用于此目的。当然,直接使用Presto时可以使用。它在雅典娜中不可用(即使它基于Presto)。