应用错误收集

为什么pyspark中的字数统计DAG与scala spark的字数统计不同？还请解释pyspark的DAG的字数？

时间：2018-10-16 11:20:39

标签： apache-spark rdd

我是Spark的新手，正在使用PySpark。我注意到PySpark的字数统计程序的DAG与Scala Spark有所不同。谁能帮助我理解这一点？

第一个DAG是PySpark

第二个是Scala Spark

1 个答案:

答案 0 :(得分：1)

之所以会这样，是因为与Dataset / SQL API（为所有受支持的语言提供统一的执行层）不同，来宾语言的内部RDD API是特定于语言的。

这意味着它可以使用不同的内部逻辑，并且可以以不同的方式进行调度。