如何在Pig中迭代加入数据集?

时间:2015-12-22 05:41:18

标签: hadoop apache-pig

我希望多次加入一个数据集(父子)来展平分层模型。我已经知道了层次结构的最大深度。为了展平这样的数据集,我必须迭代地加入这些数据。如何在Pig中完成任何线索?

实施例: 示例树:

A
|--B--D
|     
|--C--E
   |--F
   |--G

存储

Child|Parent
D|B
B|A
C|A
E|C
F|C
G|C

必需的输出

Node | Path
D    | A/B/D
E    | A/C/E
F    | A/C/F
G    | A/C/G
D    | A/B/D

这只是一个示例数据集,树可以是任何预定义的最大级别和任何结构。

0 个答案:

没有答案