将Pig“GROUP BY”的结果存储到HDFS中

时间:2014-01-17 13:13:03

标签: hadoop apache-pig

我正在寻找一种方法将pig中“group by”命令的输出存储到文件中。

(D1,{(A1,null,C1,D1,E1),(null,B1,C1,D1,E1),(A2,null,null,D1,E2)})
(C1,{(A1,null,C1,D1,E1),(null,B1,C1,D1,E1)})

我已经尝试过store命令,但数据没有被准确复制。

store F into '/tmp/group_out';

是否有其他方法可以将数据复制到文件中,方法与显示方式相同?

1 个答案:

答案 0 :(得分:1)

默认的PigStorage函数(在使用STORE时调用)在某种程度上是可配置的:http://pig.apache.org/docs/r0.12.0/func.html#pigstorage - 您可以设置例如字段和记录分隔符。

如果您需要一种特殊格式来存储数据,则必须实施custom Store UDF