Hive偏斜的数据集分区,具有巨大的大小

时间:2019-04-17 04:57:45

标签: hadoop hive partitioning skew

我正在处理一个巨大的数据集,我需要使用hive进行按国家/地区划分数据集进行存储和处理,但是一个国家/地区的数据约占数据集的70%,因此该国家/地区的分区规模非常大与其他国家的分区相比,规模巨大。 使用Hive处理偏斜数据集的最优化方法是什么?

0 个答案:

没有答案