需要比在MMDS中更好地解释MapReduce的通信成本模型

时间:2017-02-10 01:52:37

标签: hadoop mapreduce bigdata

我正在浏览MMDS书,该书有一个同名的在线MOOC。我无法理解主题2.5中提到的通信成本模型和加入操作计算,并且很惊讶于该书的组织结构不合理,因为MOOC涵盖了MapReduce"高级主题/计算复杂性中的相同主题#34;在课程结束时。

有一个运动问题(例子根本没有帮助),如:

  

我们希望采用连接R(A,B)|>< | S(B,C)|>< | T(A,C)为单一   MapReduce过程,以最小化通信成本的方式。我们将使用512个Reduce任务,并且关系R,S和T的大小分别为220 = 1,048,576,217 = 131,072和214 = 16,384。计算要对每个属性A,B和C进行哈希处理的桶的数量。然后,确定Map函数复制R,S和T的每个元组的次数。

你能指引我吗?我不知道他是如何在没有考虑中间步骤的情况下从简单的R + S + T跳到拉格朗日的身份的。

0 个答案:

没有答案