使用猪有效地合并2个已排序的文件

时间:2011-12-13 10:41:32

标签: hadoop apache-pig

我的HDFS 2数据集具有完全相同的结构,两者都在同一个键上排序。我想将它们合并到一个按该键排序的大数据集中。

现在我知道pig有一个高效的merge-join(http://wiki.apache.org/pig/PigMergeJoin)它是否也有一个高效的合并排序?

2 个答案:

答案 0 :(得分:0)

也许智能加载程序(like Zebra)可以为每个地图的索引创建正确的拆分,COGROUP USING 'merge'后跟GENERATE group仍然保留订单?

如果不是新的UNION USING 'merge'在这种情况下是完美的!

答案 1 :(得分:0)

合并连接的输出将是单个排序列表。所以你不需要单独排序。