Pig Latin Partition By子句

时间:2013-09-13 12:03:55

标签: hadoop apache-pig

Pig Latin中“Partition By”条款的用途是什么?

另请提供示例用法。

是否只允许自定义分区或允许按列分区?

1 个答案:

答案 0 :(得分:2)

Pig Latin中“Partition By”子句的用途是什么?

这允许您设置您选择的分区程序。除了订单倾斜加入之外,Pig使用默认的HashPartitioner。但有时您可能希望拥有自己的实现来提高性能。 分区依据帮助那里。

另请提供示例用法。

DATA = LOAD '/inputs/demo.txt' using PigStorage(' ') as (no:int, name:chararray);
PARTITIONED = GROUP DATA by name PARTITION BY org.apache.pig.test.utils.SimpleCustomPartitioner parallel 2;

是否只允许自定义分区或允许按列分区?

只是指定自定义分区程序,而不是根据某些字段直接进行分区。

有关详细信息,请参阅 PIG-282