我想知道hive中Cluster By和CLUSTERED BY之间的主要区别是什么。
群集用于分组表。它将使用哈希函数。
CLUSTERED BY用于在reducer中按值排序。
。之间有任何其他区别。
请告诉我
由于
venkatbala。
答案 0 :(得分:4)
“clustered by”仅将您的密钥分配到不同的桶中,“cluster by”确保N个减少器中的每一个都获得非重叠范围,然后按减少器的那些范围进行排序。主要区别在于排序。
答案 1 :(得分:0)
在DDL(CREATE语句)中-过去的格式类似于(分区依据,群集依据,分布依据,排序依据)
在DML中(例如SELECT语句)-使用当前形式,例如(分区依据,群集依据,分发依据,排序依据)
这是唯一的区别。不要在其中混淆排序/存储桶的复杂性。
要了解“群集依据”,“分布依据”和“排序依据”之间的区别,请参考以下链接:Hive cluster by vs order by vs sort by