我正在使用Hue的Apache Pig使用脚本 etl-op.pig 对文件执行ETL操作。使用以下行将输出存储到HDFS中的指定文件夹中:
STORE outval INTO '/user/root/Pig-Output
但是,下次运行脚本时,它会说输出文件夹已经存在,并且不会创建单独的文件夹。
有没有办法在Pig中使用Hue创建Java UDF,以便生成唯一标识符并将其附加到脚本中的'Pig-Output'文件夹名称?
答案 0 :(得分:1)
您可以在没有UDF的情况下执行此操作: 定义一个变量,如当前的unix时间戳:
%default TS `date +%s`
而不是用作例如您文件夹的后缀:
STORE outval INTO '/user/root/Pig-Output_$TS' ...