以自定义格式输出apache pig数据到文件

时间:2012-07-09 06:22:07

标签: java hadoop apache-pig

我有一个制表符分隔的数据输入,由于数据大小需要使用Apache Pig进行处理。 我已成功加载数据甚至分析它但我想将输出存储到原始格式的文件而不是存储元组。

Sample Input
A \t B
A \t B

Sample Output
A \t B
A \t B

代替(A,B),(A,B)

 Store D into 'output' using PigStorage('\n')

问题出在哪里?

1 个答案:

答案 0 :(得分:0)

您已加载以制表符分隔的输入,但您将其写回新行(\ n)分开。

尝试:

Store D into 'output' using PigStorage('\t');

Store D into 'output' using PigStorage(); -- tab is the default delimiter

至于输出的具体格式,我建议您查看flatten [1]运算符。

[1] http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#Flatten+Operator