应用错误收集

在Hive表中我有数百万行，我想在一列上做一个分区＆＃39; id＆＃39;这将是独一无二的。因此，在该唯一列上创建分区不是一个好习惯，因为它会创建如此多的文件和目录，这可能会减慢进程，因此有一种方法可以指定：在此＆＃39上创建分区; ID＆＃39;每10k记录或30k记录的列。那么性能可以提高吗？例如：

 create table test(name string, note string) partitioned by(id int) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE 
LOCATION 'hdfs://somelocation/'

此外，如果有日期类型列，我们可以在该列上执行分区，就像使用＆＃39; year and month only＆＃39;？喜欢分数（年份bigint，月份bigint）或一年又一年？

如何在每千行的Hive表列上进行分区

0 个答案: