我使用spark java编写一个非常简单的wordcount程序。
买我想知道如何增加countbykey()函数的任务数?
我已经尝试过System.setProperty(" spark.default.parallelism",10),但它不起作用......
答案 0 :(得分:0)
此链接可能有助于了解分区的需要: http://spark.apache.org/docs/1.2.0/programming-guide.html#parallelized-collections
此代码示例可能对您的情况有帮助(处理键值对):
keyValueData = keyValueData.partitionBy(new HashPartitioner(numPartitions));
这将根据键的哈希值和给定参数numPartitions
对JavaPairRDD进行分区。
现在countByKey
将使用给定数量的任务(numPartitions
)运行。