如何在Hive中实现排序(Order by)?

时间:2012-02-28 04:49:19

标签: sorting hadoop sql-order-by mapreduce hive

我们知道hive在排序作业开始之前不会进行采样。它只是利用MapReduce的排序机制并在reduce方面执行merge-sort,并且只使用一个reduce。因为reduce收集mapper中输出的所有数据这种情况,比如运行reduce的机器有100GB的磁盘,如果数据太大而无法放入磁盘怎么办?

1 个答案:

答案 0 :(得分:0)

Hive的并行排序机制仍处于开发阶段,请参阅here

精心设计的数据仓库或数据库应用程序将避免此类全局排序。如果需要,请尝试使用Pig或Terasort(http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html)