"压扁"猪的数据库

时间:2016-02-24 17:45:48

标签: hadoop apache-pig udf databags

假设我有一堆由Pig UDF生成的数据集,它包含几个字符串元组。我怎样才能将所有这些从数据库中拉出来并简单地使每个String成为自己的" row"数据。

databags = FOREACH data GENERATE pigUdfThatMakesDataBags(data::someText); strings = FOREACH databags { ??? };

2 个答案:

答案 0 :(得分:1)

我是否理解您正在寻找FLATTEN

答案 1 :(得分:1)

databags = FOREACH data GENERATE pigUdfThatMakesDataBags(data::someText);
datatuples = FOREACH databags FLATTEN($0);      -- Bag to Tuples 
strings = FOREACH datatuples FLATTEN(TOBAG(*)); -- Tuples to Tokens'
DUMP strings;