如何在每千行的Hive表列上进行分区

时间:2017-10-20 15:04:49

标签: hive grouping hadoop-partitioning

在Hive表中我有数百万行,我想在一列上做一个分区' id'这将是独一无二的。因此,在该唯一列上创建分区不是一个好习惯,因为它会创建如此多的文件和目录,这可能会减慢进程,因此有一种方法可以指定:在此&#39上创建分区; ID'每10k记录或30k记录的列。那么性能可以提高吗? 例如:

 create table test(name string, note string) partitioned by(id int) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE 
LOCATION 'hdfs://somelocation/'

此外,如果有日期类型列,我们可以在该列上执行分区,就像使用' year and month only'?喜欢 分数(年份bigint,月份bigint)或 一年又一年?

0 个答案:

没有答案