应用错误收集

如何使用多个类别对大型Hive表进行分区

时间：2013-07-17 19:02:20

标签： for-loop hive hadoop-partitioning

我想在hive中对我的表进行分区，以便对于行中的每个唯一项创建一个分区。对于大约40亿行表有大约250个分区，所以我想要像for循环或不同的东西。这是我在代码中的想法（显然没有用）

ALTER TABLE myTable ADD IF NOT NOT EXISTS

PARTITION（myColumn = distinct myColumn）;

或者Hive中是否存在某种循环？这需要UDF吗？如果可能的话，蜂巢答案会更好。

感谢。

1 个答案:

答案 0 :(得分：0)

只需使用动态分区
https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-DynamicpartitionInsert

它可以随时随地创建分区