在运行tez引擎的Hive中管理输入拆分大小

时间:2016-04-21 06:36:22

标签: hadoop split mapreduce hive apache-tez

我希望更好地了解如何在tez引擎中计算输入分割。

我知道hive.input.format属性可以设置为 HiveInputFormat (默认)或 CombineHiveInputFormat (通常接受大量<< hdfs块大小)的大量文件。

我希望有人可以告诉我 HiveInputFormat CombineHiveInputFormat 如何计算拆分大小的差异数据文件大小从小(小于块)到大(跨越多个块)不等。

我想要指定为扫描表格而生成的映射器任务的数量。对于MR引擎,可以通过设置 mapred.min.split.size mapred.max.split.size 来控制属性。我需要知道tez引擎是否有类似的配置。

属性 tez.grouping.max-size tez.grouping.min-size tez.grouping.split-waves 分别设置为1GB,16MB和1.7的值。但是我发现创建的输入拆分不符合这些属性。

我有两个大小为3MB的文件用于表格。根据设置的属性,只应生成1个映射器任务,而是生成2个映射器任务。

是否需要将hive / tez中的其他属性设置为启用输入拆分分组?

我非常感谢任何投入。

谢谢!

0 个答案:

没有答案
相关问题