标签: mapreduce
取自this。
在基于服务器的映射之后,分组如何工作?我知道可以并行处理某些任务,例如计算句子中的单词数。但是,假设您有很多句子,并对其进行并行化处理,以便不同的节点各取一个句子。
据我了解,Reduce需要一个键/值列表对,因此通常只需要对每个键的值列表求和即可。但是,如果在不同节点上的Map生成的值可能是同一键的值,那么在传递给Reduce之前如何将这些值汇总到统一列表中?如果所有数据都传递到单个节点,这似乎效率很低。