如何在spark中为countbykey()添加tasknum

时间:2014-08-04 05:05:27

标签: apache-spark

我使用spark java编写一个非常简单的wordcount程序。

买我想知道如何增加countbykey()函数的任务数?

我已经尝试过System.setProperty(" spark.default.parallelism",10),但它不起作用......

1 个答案:

答案 0 :(得分:0)

此链接可能有助于了解分区的需要: http://spark.apache.org/docs/1.2.0/programming-guide.html#parallelized-collections

此代码示例可能对您的情况有帮助(处理键值对):

keyValueData = keyValueData.partitionBy(new HashPartitioner(numPartitions));

这将根据键的哈希值和给定参数numPartitions对JavaPairRDD进行分区。

现在countByKey将使用给定数量的任务(numPartitions)运行。