标签: hadoop mapreduce hive bigdata hadoop-partitioning
我需要在Hive中使用多个reducer实现输出结果的总排序(例如4)。我发现link Hive正在使用表达式:
hash_function(bucketing column)mod num_buckets。
由于输入数字集(41,42,43,51,52,53),桶将以下一种方式显示:
因此输出不会以适当的方式排序。 也许有一种方法可以设置自定义函数来进行数字集的分组,如: