Spark RDD sortByKey触发一个新工作

时间:2015-04-24 13:56:00

标签: apache-spark

我已经使用以下代码测试了sortByKey方法,并且我观察到在调用时会触发新作业。我既可以在API中也可以在代码中找到它。这是一种缩进的行为吗?例如,RDD zipWithIndex方法API指定将触发新作业。但是sortByKey怎么样?

val sc = new SparkContext(new SparkConf().setAppName("Spark Count"))
val l =sc.parallelize(List((5,'c'),(2,'d'),(1,'a'),(7,'e')), 3)

l.sortByKey()

感谢您的回答。

1 个答案:

答案 0 :(得分:1)

正如肖恩在https://www.mail-archive.com/user@spark.apache.org/msg27005.html指出的那样, " [...] sortByKey实际上运行一份工作 评估数据的分布(见JIRA https://issues.apache.org/jira/browse/SPARK-1021)"。  我希望在调试作业的数量和应用阶段时,这有助于其他人。