我不清楚hive中的分区和分区之间的区别,如果您能通过示例提供一些细节,我将非常感激。
答案 0 :(得分:7)
Here是Buckets和Partitioning之间的一个很好的区别。
基本上,分区和分段切片用于执行查询的数据比非切片数据更有效。主要的区别在于,在修改数据的情况下,切片的数量会随着分区的变化而不断变化,但是在分段时,切片的数量是固定的,这是在创建表时指定的。
通过使用哈希算法然后对桶的数量进行模数化来进行跳跃。因此,可能会在任何存储桶中插入一行。 Bucketing可用于数据采样,也可用于更有效地连接两个数据集。