标签: hive
在Apache Hive中,我有10个桶。在10个桶中,我想获得最近的桶数据。有没有办法确定最近创建的存储桶?
答案 0 :(得分:1)
Hive表bucket是一个文件。您可以使用hadoop fs -ls命令获取文件名创建时间。而hive有INPUT__FILE__NAME个虚拟列。因此,您可以在shell中获取文件名,然后将其用作传递给Hive脚本的参数以进行过滤。但请记住,文件是并行创建的,后者或更早版本可能与数据或命令启动时间无关。
hadoop fs -ls
INPUT__FILE__NAME