用apache pig更改文本文件的格式

时间:2015-03-30 18:02:23

标签: apache-pig

我有一个txt文件,其格式如下:

{ (word1),(word2),(word3),....,(wordn) }

单词不在引号中。我想使用apache pig并将此文件的格式更改为:

word1
word2
word3
wordn    

有没有办法用apache猪这样做?

1 个答案:

答案 0 :(得分:0)

你能试试吗?

<强>输入

{ (word1),(word2),(word3),(wordn) }

<强> PigScript1:

A = LOAD 'input' AS (mybag:{T:(line:chararray)});
B = FOREACH A GENERATE REPLACE(BagToString(mybag.line),'_',' ');
STORE B INTO 'output';

输出:(存储在输出/部分*文件中)

word1 word2 word3 wordn

更新(如果您想要单行中的所有列,请使用Flatten运算符) 的 PigScript2:

A = LOAD 'input' AS (mybag:{T:(line:chararray)});
B = FOREACH A GENERATE FLATTEN(mybag);
STORE B INTO 'output1';

<强>输出:

word1
word2
word3
wordn