将pig作业的输出存储到从数据派生的目录结构中

时间:2015-10-07 21:25:32

标签: apache-pig store derived output-directory

我想实现以下目标:

我的输入数据如下所示

package.preload

我想使用猪脚本来填充这些数据,如下所示

{"metadata":
{
"producerName":"capture_api",
"producerVersion":"3.0.13"
},
"payload":
{
--some payload 
}
}

有没有办法可以做到这一点。我尝试过使用MultiStorage函数,但该类只支持一个字段。我可以覆盖多级内部的功能,但只想检查是否有更简单的选项。

1 个答案:

答案 0 :(得分:0)

piggybank MultiStorage可以通过(仅一个?)字段将数据分成多个文件夹。

STORE data INTO '$out/$producerName' USING org.apache.pig.piggybank.storage.MultiStorage('$out/$producerName', '0', 'none', ',');