应用错误收集

Hive存储桶的自定义散列函数

时间：2015-02-11 16:18:40

标签： hadoop mapreduce hive bigdata hadoop-partitioning

我需要在Hive中使用多个reducer实现输出结果的总排序（例如4）。我发现link Hive正在使用表达式：

hash_function（bucketing column）mod num_buckets。

由于输入数字集（41,42,43,51,52,53），桶将以下一种方式显示：

1斗：52
2斗：41,53
3斗：42
4桶：43,41

因此输出不会以适当的方式排序。也许有一种方法可以设置自定义函数来进行数字集的分组，如：

1桶：41,42
2斗：43,41
3斗：52
4桶：53

0 个答案:

没有答案