我们有一个集群的事务表(1万个存储桶),对于以下两个用例来说效率似乎较低
我们要做的是按日期分区表,从而创建分区的群集事务表。每天的数量表明,存储桶的数量大约为1-3,但是插入到新创建的表中会产生 number_of_buckets 个reduce任务,该任务太慢,并且由于硬盘驱动器有限而导致在reducer上合并某些问题。
这两个问题都是可以解决的(例如,我们可以使用n_jobs * n_buckets reduce任务将数据分成几个块,并启动单独的作业并行插入目标表中,尽管这会导致多次读取源表),但是我认为应该有正确的方法来做,所以问题是:这是正确的方法吗?
P.S。蜂巢版本:1.2.1000.2.6.4.0-91