如何使用RC格式存储分区数据?

时间:2014-01-08 19:29:48

标签: hadoop apache-pig rc

我想知道是否有一个UDF或者可以以RC格式以分区方式存储我的数据的东西。我知道有org.apache.pig.piggybank.storage.MultiStorage,但它只适用于某种压缩格式。我希望以RC格式存储我的数据,但使用与MultiStorage相同的分区存储结构。

谢谢, 伊姆蒂亚兹

1 个答案:

答案 0 :(得分:0)

在皮球或其他替代品中没有这样的解决方案。我遇到过类似的问题。但是由于一些其他要求而放弃了实现。只有可用的解决方案是扩展MultiStorage udf以提供RC存储格式。

Twitter已开源其RC文件存储。你可以从中获得帮助。 http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java