使用mrjob时如何指定TotalOrderPartitioner?这是默认值,还是必须明确指定?我发现不同数据集的行为不一致。
答案 0 :(得分:1)
您可以使用job.setPartitionerClass(TotalOrderPartitioner.class);
它不是默认的分区程序类。默认值为HashPartitioner
类。
它不是一个非常容易使用的分区系统。使用TotalOrderPartitioner时,必须使用InputSampler预先对输入中的数据进行采样。
我写了一篇非常详细的教程,内容包括如何使用这些here的示例和插图(从初学者到高级用法)。