为什么pyspark中的字数统计DAG与scala spark的字数统计不同?还请解释pyspark的DAG的字数?

时间:2018-10-16 11:20:39

标签: apache-spark rdd

我是Spark的新手,正在使用PySpark。我注意到PySpark的字数统计程序的DAG与Scala Spark有所不同。谁能帮助我理解这一点?

第一个DAG是PySpark

DAG PySpark

第二个是Scala Spark

DAG Scala

1 个答案:

答案 0 :(得分:1)

之所以会这样,是因为与Dataset / SQL API(为所有受支持的语言提供统一的执行层)不同,来宾语言的内部RDD API是特定于语言的。

这意味着它可以使用不同的内部逻辑,并且可以以不同的方式进行调度。