我们有一个自定义可写值对象的SequenceFile,该对象基本上等同于Pig中的复杂bag数据类型。
有没有一种方便的方法可以编写自定义函数将hadoop Writable对象转换为bag数据类型,然后使用pig脚本处理它?</ p>
答案 0 :(得分:3)
一个选项是查看elephant-bird - 如果向下滚动此github页面到README部分,它有一个关于Pig的部分:
猪
- 包含用于将元组转换为可写对象的转换器接口,反之亦然
我从未使用它,我想你必须自己实现一些代码(可能是com.twitter.elephantbird.pig.util.WritableLoadCaster
抽象类的扩展,SequencedFileLoader
使用你的负载加载你的序列文件施法者实施