在Apache Pig 0.15中,我有两个简单的列表(WITHOUT id / primary key等),我想将它们合并在一起创建一个包含两列的元组列表。例如:
Names
-----
Peter
John
Anne
Ages
-----
45
23
44
我想最终:
Names Age
---------------
Peter 45
John 23
Anne 44
我知道我可以在两个列表上使用RANK然后加入JOIN,但这看起来太昂贵了,因为我在这些列表中有数百万个条目。我有点想和"合并"没有连接参数......
如何在Apache Pig中有效地做到这一点?
答案 0 :(得分:0)
如果您不关心Age和Name之间的映射,那么您可以尝试两个关系之间的交叉连接。 Post Cross按名称加入群组并保留任何人。然而,IMO,这可能比您上面提到的RANK方法更昂贵(相当资源密集)。