假设我有一个NEW包含很多对(A,B):
Pair 1: { "A" : { "long" : someInteger1 }, "B" : { "int" : someInteger2 } }
Pair 2: { "A" : { "long" : someInteger3 }, "B" : { "int" : someInteger4 } }
......
我有另一个包OLD,几乎与第一个包相同(它可能有一些丢失,不同或额外的一对),我想通过计算两者中相同数量的对来比较OLD和NEW袋。 行李中可能有多对(A,B)具有相同的A或相同的B.
我已经尝试使用Pig的东西:
在A上加入OLD和NEW并计算B匹配的方式。对于一些 原因,联合的结果似乎有奇怪的重复:
结果1:{“A_new”:{“long”:someInteger1},“B_new”:{“int”:someInteger2},“A_old”:{“long”:someInteger1},“B_old”:{“int “:someInteger2}}
结果2:{“A_new”:{“long”:someInteger1},“B_new”:{“int”:someInteger2},“A_old”:{“long”:someInteger1},“B_old”:{“int “:someInteger3}}
结果3:{“A_new”:{“long”:someInteger1},“B_new”:{“int”:someInteger2},“A_old”:{“long”:someInteger1},“B_old”:{“int “:someInteger4}}
结果4:{“A_new”:{“long”:someInteger1},“B_new”:{“int”:someInteger2},“A_old”:{“long”:someInteger1},“B_old”:{“int “:someInteger5}}