级联/ Hadoop:基于作业大小的GroupBy / Reducer

时间:2015-06-12 22:47:54

标签: hadoop cascading

使用案例:在每条记录通过Each管道后,它们将分批处理200个。它们如何分组或排序无关紧要;将记录聚合为大小为200的组就足够了。

考虑Each管道发布结果和KeygroupFieldsGroupBy中充当GroupBy。然后Every将发出大小为200的组,我可以使用Key处理这些组。但是,我不知道预先有多少条记录,因此我不得不设计一个函数来生成{{1}}。

0 个答案:

没有答案