应用错误收集

如何为配置单元中的查询定义映射数和化简器的数量

时间：2018-12-29 19:46:32

标签： hive hsqldb hadoop2

我是蜂巢中的新成员，正在检查执行计划（解释）以了解具有子查询的复杂查询，该查询具有多个表，并具有聚合函数的row_number。试图找出映射归约任务的分配。所以我有几个问题 1. Map-Reduce任务的分配是否取决于表的大小/联接数？ 2.每次我都会得到相同数量的地图并减少？ 3.您能否让我知道针对查询的map reduce分配背后的逻辑。

1 个答案:

答案 0 :(得分：0)

因此，输入拆分是一个逻辑实体，而Block是一个物理实体。假设您要从HDFS中获取数据，Map Reduce客户端会计算整个记录是否位于同一块中，如果记录的某些部分位于另一个块中，则输入拆分将捕获位置信息，并记录下一个字节的偏移量块以完成记录。这通常发生在多行记录中，输入拆分的配置与块大小的大小相同。一个输入拆分表示将在一个映射器中输入的数据大小。