Apache Pig - 使用UDF创建唯一的输出文件夹

时间:2015-04-30 04:02:22

标签: java hadoop apache-pig hue

我正在使用Hue的Apache Pig使用脚本 etl-op.pig 对文件执行ETL操作。使用以下行将输出存储到HDFS中的指定文件夹中:

STORE outval INTO '/user/root/Pig-Output

但是,下次运行脚本时,它会说输出文件夹已经存在,并且不会创建单独的文件夹。

有没有办法在Pig中使用Hue创建Java UDF,以便生成唯一标识符并将其附加到脚本中的'Pig-Output'文件夹名称?

1 个答案:

答案 0 :(得分:1)

您可以在没有UDF的情况下执行此操作: 定义一个变量,如当前的unix时间戳:

%default TS `date  +%s` 

而不是用作例如您文件夹的后缀:

STORE outval INTO '/user/root/Pig-Output_$TS' ...