我希望更好地了解如何在tez引擎中计算输入分割。
我知道hive.input.format属性可以设置为 HiveInputFormat (默认)或 CombineHiveInputFormat (通常接受大量<< hdfs块大小)的大量文件。
我希望有人可以告诉我 HiveInputFormat 和 CombineHiveInputFormat 如何计算拆分大小的差异数据文件大小从小(小于块)到大(跨越多个块)不等。
我想要指定为扫描表格而生成的映射器任务的数量。对于MR引擎,可以通过设置 mapred.min.split.size 和 mapred.max.split.size 来控制属性。我需要知道tez引擎是否有类似的配置。
属性 tez.grouping.max-size , tez.grouping.min-size 和 tez.grouping.split-waves 分别设置为1GB,16MB和1.7的值。但是我发现创建的输入拆分不符合这些属性。
我有两个大小为3MB的文件用于表格。根据设置的属性,只应生成1个映射器任务,而是生成2个映射器任务。
是否需要将hive / tez中的其他属性设置为启用输入拆分分组?
我非常感谢任何投入。
谢谢!