标签: hadoop hive partitioning skew
我正在处理一个巨大的数据集,我需要使用hive进行按国家/地区划分数据集进行存储和处理,但是一个国家/地区的数据约占数据集的70%,因此该国家/地区的分区规模非常大与其他国家的分区相比,规模巨大。 使用Hive处理偏斜数据集的最优化方法是什么?