在Hive表中我有数百万行,我想在一列上做一个分区' id'这将是独一无二的。因此,在该唯一列上创建分区不是一个好习惯,因为它会创建如此多的文件和目录,这可能会减慢进程,因此有一种方法可以指定:在此&#39上创建分区; ID'每10k记录或30k记录的列。那么性能可以提高吗? 例如:
create table test(name string, note string) partitioned by(id int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE
LOCATION 'hdfs://somelocation/'
此外,如果有日期类型列,我们可以在该列上执行分区,就像使用' year and month only
'?喜欢
分数(年份bigint,月份bigint)或
一年又一年?