加载和分组记录后,如何将这些分组记录存储到多个文件中,每组一个(= userid)?
records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;
我正在使用Apache Pig版本0.8.1-cdh3u3(rexported)
答案 0 :(得分:8)
确实,MultiStorage上有一个Piggybank类,它正是我想要的 - 它按照指定的属性(在我的例子中为索引'0')分割记录:
STORE records INTO 'output' USING org.apache.pig.piggybank.storage.MultiStorage('output', '0', 'none', ',');
答案 1 :(得分:4)
A = LOAD 'mydata' USING PigStorage() as (a, b, c);
STORE A INTO '/my/home/output' USING MultiStorage('/my/home/output','0', 'bz2', '\\t');
参数:
参考:GrepCode