蜂巢中的Cluster By和CLUSTERED BY之间的区别?

时间:2015-12-28 15:10:52

标签: hadoop hive

我想知道hive中Cluster By和CLUSTERED BY之间的主要区别是什么。

群集用于分组表。它将使用哈希函数。

CLUSTERED BY用于在reducer中按值排序。

。之间有任何其他区别。

请告诉我

由于

venkatbala。

2 个答案:

答案 0 :(得分:4)

“clustered by”仅将您的密钥分配到不同的桶中,“cluster by”确保N个减少器中的每一个都获得非重叠范围,然后按减少器的那些范围进行排序。主要区别在于排序。

答案 1 :(得分:0)

在DDL(CREATE语句)中-过去的格式类似于(分区依据,群集依据,分布依据,排序依据)

在DML中(例如SELECT语句)-使用当前形式,例如(分区依据,群集依据,分发依据,排序依据)

这是唯一的区别。不要在其中混淆排序/存储桶的复杂性。

要了解“群集依据”,“分布依据”和“排序依据”之间的区别,请参考以下链接:Hive cluster by vs order by vs sort by