如何使用多个类别对大型Hive表进行分区

时间:2013-07-17 19:02:20

标签: for-loop hive hadoop-partitioning

我想在hive中对我的表进行分区,以便对于行中的每个唯一项创建一个分区。对于大约40亿行表有大约250个分区,所以我想要像for循环或不同的东西。这是我在代码中的想法(显然没有用)

ALTER TABLE myTable ADD IF NOT NOT EXISTS

PARTITION(myColumn = distinct myColumn);

或者Hive中是否存在某种循环? 这需要UDF吗?如果可能的话,蜂巢答案会更好。

感谢。

1 个答案:

答案 0 :(得分:0)

只需使用动态分区
 https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-DynamicpartitionInsert

它可以随时随地创建分区