使用PIG(0.14),我对以下用例感兴趣:我希望根据其密钥将原始JSON处理到多个输出目录,并将结果(聚合数据)存储为JSON。 JSON有一个不断发展的(动态)模式,用大象鸟读入,而且(迄今为止)没有引起任何问题。
我可以将输出存储在正确的目录中(使用MultiStorage)或JSON(使用JsonStorage)但不能同时存储。据我所知,没有公开的UDF用于此目的。
我是否遗漏了某些内容,或者只是编写自己的UDF来执行此操作?这似乎是一个简单的用例,我原本认为会得到支持。
答案 0 :(得分:0)
对于那些正在寻找答案的人;需要UDF。
将JsonStorage和MultiStorage的piggybank UDF组合起来创建一个伪" JsonMultiStorage"是可能的(并且相对直接)。类。