标签: hadoop mapreduce distributed-computing sdn
如果在Hadoop系统中,一个系统的输入依赖于某个其他系统的输出,则无法实现并行计算。
有什么方法可以解决这个问题吗? 请提供详细的解决方案或任何资源链接。
答案 0 :(得分:0)
问题有点模糊,但幸运的是有一个通用的答案。
如果您无法在一个map-reduce阶段中执行所有操作,例如由于依赖关系,则可以在多个阶段执行此操作。
一个简单的例子是:
地图,减少-MAP-减少
当然这有局限性,如果第2行的所有处理都依赖于第1行的最终处理,那么从根本上不可能并行处理第1行和第2行。