TotalOrderPartitioner和mrjob

时间:2016-02-26 04:30:53

标签: hadoop-streaming mrjob hadoop-partitioning totalorderpartitioner

使用mrjob时如何指定TotalOrderPartitioner?这是默认值,还是必须明确指定?我发现不同数据集的行为不一致。

1 个答案:

答案 0 :(得分:1)

您可以使用job.setPartitionerClass(TotalOrderPartitioner.class);

指定它

它不是默认的分区程序类。默认值为HashPartitioner类。

它不是一个非常容易使用的分区系统。使用TotalOrderPartitioner时,必须使用InputSampler预先对输入中的数据进行采样。

我写了一篇非常详细的教程,内容包括如何使用这些here的示例和插图(从初学者到高级用法)。