我的HDFS 2数据集具有完全相同的结构,两者都在同一个键上排序。我想将它们合并到一个按该键排序的大数据集中。
现在我知道pig有一个高效的merge-join(http://wiki.apache.org/pig/PigMergeJoin)它是否也有一个高效的合并排序?
答案 0 :(得分:0)
也许智能加载程序(like Zebra)可以为每个地图的索引创建正确的拆分,COGROUP USING 'merge'
后跟GENERATE group
仍然保留订单?
如果不是新的UNION USING 'merge'
在这种情况下是完美的!
答案 1 :(得分:0)
合并连接的输出将是单个排序列表。所以你不需要单独排序。