hadoop - 在运行tez引擎的Hive中管理输入拆分大小

我希望更好地了解如何在tez引擎中计算输入分割。

我知道hive.input.format属性可以设置为 HiveInputFormat （默认）或 CombineHiveInputFormat （通常接受大量＆lt;＆lt; hdfs块大小）的大量文件。

我希望有人可以告诉我 HiveInputFormat 和 CombineHiveInputFormat 如何计算拆分大小的差异数据文件大小从小（小于块）到大（跨越多个块）不等。

我想要指定为扫描表格而生成的映射器任务的数量。对于MR引擎，可以通过设置 mapred.min.split.size 和 mapred.max.split.size 来控制属性。我需要知道tez引擎是否有类似的配置。

属性 tez.grouping.max-size ， tez.grouping.min-size 和 tez.grouping.split-waves 分别设置为1GB，16MB和1.7的值。但是我发现创建的输入拆分不符合这些属性。

我有两个大小为3MB的文件用于表格。根据设置的属性，只应生成1个映射器任务，而是生成2个映射器任务。

是否需要将hive / tez中的其他属性设置为启用输入拆分分组？

我非常感谢任何投入。

谢谢！