Question

我使用spark java编写一个非常简单的wordcount程序。

买我想知道如何增加countbykey（）函数的任务数？

我已经尝试过System.setProperty（＆＃34; spark.default.parallelism＆＃34;，10），但它不起作用......

Answer 1

此代码示例可能对您的情况有帮助（处理键值对）：

keyValueData = keyValueData.partitionBy(new HashPartitioner(numPartitions));

这将根据键的哈希值和给定参数numPartitions对JavaPairRDD进行分区。

现在countByKey将使用给定数量的任务（numPartitions）运行。