标签: hadoop hive
我在Hive中有以下查询
CREATE TABLE bucketed_users (id INT, name STRING,FlatNumber INT) CLUSTERED BY (id) INTO 4 BUCKETS;
群集只能在INT列(也在FlatNumber上)上进行,或者我们可以定义自定义函数,它将提供用于分组的集合逻辑吗?
FlatNumber
答案 0 :(得分:2)
可以在任何列上创建群集/存储桶,对于非数字列,HIVE将使用 HASH(col)%“桶数”来查找记录存储桶。