标签: apache-spark rdd
我是Spark的新手,正在使用PySpark。我注意到PySpark的字数统计程序的DAG与Scala Spark有所不同。谁能帮助我理解这一点?
第一个DAG是PySpark
第二个是Scala Spark
答案 0 :(得分:1)
之所以会这样,是因为与Dataset / SQL API(为所有受支持的语言提供统一的执行层)不同,来宾语言的内部RDD API是特定于语言的。
Dataset
RDD
这意味着它可以使用不同的内部逻辑,并且可以以不同的方式进行调度。