Hive存储桶的自定义散列函数

时间:2015-02-11 16:18:40

标签: hadoop mapreduce hive bigdata hadoop-partitioning

我需要在Hive中使用多个reducer实现输出结果的总排序(例如4)。我发现link Hive正在使用表达式:

  

hash_function(bucketing column)mod num_buckets。

由于输入数字集(41,42,43,51,52,53),桶将以下一种方式显示:

  • 1斗:52
  • 2斗:41,53
  • 3斗:42
  • 4桶:43,41

因此输出不会以适当的方式排序。 也许有一种方法可以设置自定义函数来进行数字集的分组,如:

  • 1桶:41,42
  • 2斗:43,41
  • 3斗:52
  • 4桶:53

0 个答案:

没有答案