标签: hadoop cascading
使用案例:在每条记录通过Each管道后,它们将分批处理200个。它们如何分组或排序无关紧要;将记录聚合为大小为200的组就足够了。
Each
考虑Each管道发布结果和Key,groupFields在GroupBy中充当GroupBy。然后Every将发出大小为200的组,我可以使用Key处理这些组。但是,我不知道预先有多少条记录,因此我不得不设计一个函数来生成{{1}}。
Key
groupFields
GroupBy
Every