Hadoop shuffle / merge time:平均值与总计

时间:2015-01-23 13:33:34

标签: hadoop mapreduce

Hadoop输出以下统计信息:

  • 平均地图时间
  • 平均减少时间
  • 平均洗牌时间
  • 平均合并时间

总地图和缩短时间可以通过将已完成地图的数量乘以这些平均数来减少。但是如何获得总的混洗/合并时间呢?或者:如何计算平均洗牌时间?

1 个答案:

答案 0 :(得分:1)

平均地图时间 =所有地图任务的总时间/地图任务的数量

平均缩短时间 =所有减少任务所花费的总时间/减少任务次数

平均合并时间 =(try.sortFinishTime - attempt.shuffleFinishTime)的平均值

Shuffle 阶段,由Map任务生成的中间数据将定向到右侧Reducer。 Shuffle阶段将键分配给reducer& 将特定键的所有值发送到正确的reducer。

在将输出值发送到Reducer之前,此阶段也会进行排序。

洗牌阶段涉及从Map节点跨网络传输数据。

来自Apache link

<强>随机

Reducer的输入是映射器的排序输出。在此阶段,框架通过HTTP获取所有映射器的输出的相关分区。

<强>排序

框架在此阶段按键分配Reducer输入(因为不同的映射器可能输出相同的密钥)。

洗牌和分拣阶段同时发生;正在提取地图输出时,它们会被合并。

Hadoop框架将执行以下两个阶段: shuffling&amp;排序