如何为配置单元中的查询定义映射数和化简器的数量

时间:2018-12-29 19:46:32

标签: hive hsqldb hadoop2

我是蜂巢中的新成员,正在检查执行计划(解释)以了解具有子查询的复杂查询,该查询具有多个表,并具有聚合函数的row_number。 试图找出映射归约任务的分配。 所以我有几个问题 1. Map-Reduce任务的分配是否取决于表的大小/联接数? 2.每次我都会得到相同数量的地图并减少? 3.您能否让我知道针对查询的map reduce分配背后的逻辑。

1 个答案:

答案 0 :(得分:0)

因此,输入拆分是一个逻辑实体,而Block是一个物理实体。假设您要从HDFS中获取数据,Map Reduce客户端会计算整个记录是否位于同一块中,如果记录的某些部分位于另一个块中,则输入拆分将捕获位置信息,并记录下一个字节的偏移量块以完成记录。这通常发生在多行记录中,输入拆分的配置与块大小的大小相同。一个输入拆分表示将在一个映射器中输入的数据大小。