hadoop - 级联/ Hadoop：基于作业大小的GroupBy / Reducer - Thinbug

级联/ Hadoop：基于作业大小的GroupBy / Reducer

时间：2015-06-12 22:47:54

标签： hadoop cascading

使用案例：在每条记录通过Each管道后，它们将分批处理200个。它们如何分组或排序无关紧要;将记录聚合为大小为200的组就足够了。

考虑Each管道发布结果和Key，groupFields在GroupBy中充当GroupBy。然后Every将发出大小为200的组，我可以使用Key处理这些组。但是，我不知道预先有多少条记录，因此我不得不设计一个函数来生成{{1}}。

0 个答案:

没有答案