Question

加载和分组记录后，如何将这些分组记录存储到多个文件中，每组一个（= userid）？

records = LOAD 'input' AS (userid:int, ...);
grouped_records = GROUP records BY userid;

我正在使用Apache Pig版本0.8.1-cdh3u3（rexported）

Answer 1

确实，MultiStorage上有一个Piggybank类，它正是我想要的 - 它按照指定的属性（在我的例子中为索引'0'）分割记录：

STORE records INTO 'output' USING org.apache.pig.piggybank.storage.MultiStorage('output', '0', 'none', ',');

Answer 2

 A = LOAD 'mydata' USING PigStorage() as (a, b, c);  
 STORE A INTO '/my/home/output' USING MultiStorage('/my/home/output','0', 'bz2', '\\t');

参数：

参考：GrepCode