拆分TDCH中的Hive表

时间:2015-09-10 22:22:22

标签: hadoop split mapreduce hive teradata

我使用TDCH将配置单元数据导出到teradata表中。为此,我需要指定我的TDCH作业的映射器数量。
所以,我的问题是"我们给TDCH工作的这个映射器数量选项只是对TDCH的一个暗示?或者这些由TDCH创建的映射器总数将始终等于选项(TDCH作业)中给出的映射器数量"?

我的假设是映射器的数量主要取决于分割大小而不是给定的映射器数量(在TDCH作业的选项中)。我的假设对于TDCH工作是否正确?。

另外,对于Hive表,如何定义拆分大小?是根据行数定义的?或者它是根据数据大小(如60MB或120MB等)定义的,类似于" textfiles"?

1 个答案:

答案 0 :(得分:0)

  

"我们给TDCH工作的这个映射器数量选项只是对TDCH的一个暗示?或者这些由TDCH创建的映射器总数将始终等于选项(TDCH作业)中给出的映射器数量"?

TDCH中的Splitsize总是等于"映射器的数量"指定(我在其中一个TDCH教程中读到了这个)。因此,映射器的数量不仅仅是一个提示(与传统的mapreduce编程不同),它只是分裂的数量。

由于它等于拆分数,因此为TDCH作业生成的映射器的总数总是等于"映射器的数量"运行作业时指定的(选项)。