我需要在PDI(Kettle)中使用GroupBy和MergeJoin。两者都使用与键相同的字段。
在GroupBy数据仍然订购后,我找不到任何地方确认。
如果我需要知道它是否正确: SORT> GROUPBY> SORT> MERGEJOIN 要么 SORT> GROUPBY> MERGEJOIN
有人可以告诉我这是正确的,为什么?
非常感谢。
答案 0 :(得分:1)
您需要根据您要分组或加入的键,在Group By和Merge Join之前进行排序。退出时的数据将具有与之前相同的顺序,因此,如果您基于相同的键进行分组然后合并,则不需要在分组依据和合并联接之间进行分类。
但是,如果键发生了变化,你就可以了。