获取Apache Hive中10个桶中的最新桶数据,

时间:2018-04-08 06:11:43

标签: hive

在Apache Hive中,我有10个桶。在10个桶中,我想获得最近的桶数据。有没有办法确定最近创建的存储桶?

1 个答案:

答案 0 :(得分:1)

Hive表bucket是一个文件。您可以使用hadoop fs -ls命令获取文件名创建时间。而hive有INPUT__FILE__NAME个虚拟列。因此,您可以在shell中获取文件名,然后将其用作传递给Hive脚本的参数以进行过滤。但请记住,文件是并行创建的,后者或更早版本可能与数据或命令启动时间无关。