apache-pig dse pig flatten usage

时间:2014-12-21 11:25:09

标签: apache-pig

什么时候应该在猪身上使用?无法从文档中理解。 Pig中显示的错误消息和问题完全不同。它说有时扁平无法导入,但同样的扁平工作在某处。

1 个答案:

答案 0 :(得分:0)

每当您对数据文件中的任何标识符使用group命令时,它都会列出与包中的标识符有关的所有元组,这有时读起来非常麻烦。 因此,如果你在group子句的顶部使用flatten,它将在你的输出文件中单独列出所有元组。使用flatten的缺点是同一记录的dulplicacy。因此,为了删除dulpicate,你需要编写一段额外的代码。 / p>

非展平代码示例:

X = GROUP A BY f1;

DUMP X;

(1,{(1,2,3)})

(4,{(4,2,1),(4,3,3)})

(8,{(8,3,4)})

展平代码示例:

X = GROUP A BY f1;

DUMP X;

(1,2,3)

(4,2,1)

(4,3,3)

(8,3,4)