火花中的工作执行

时间:2020-05-06 06:16:59

标签: apache-spark apache-spark-sql spark-shell

我对Spark非常陌生,并尝试使用以下命令在spark UI中检查DAG创建:

当我使用命令读取简单的csv文件时

val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :

enter image description here

我不理解它是什么以及为什么是“ MAP”>“ MAPPARTITIONSINTERNAL”>“ WHOLESTAGECODEGEN”

当我运行包含“ inferschema”选项为TRUE的命令时,正在创建2个阶段:

spark.read.format(“ csv”)。option(“ header”,“ true”)。option(“ inferSchema”,true).load(“ / home / user / test.csv”) 每个阶段都有自己的DAG

第1阶段DAG:

enter image description here

第2阶段DAG: enter image description here

任何人都可以帮我吗,为什么当推理模式为TRUE时它会创建两个阶段,从那里我可以得到“ DESERIALIZETOOBJECT“>“ MAP”等阶段中提到的术语阐述。

等待有价值的输入,这有助于详细了解DAG,关于为何在JOB 7中执行多个“ MAP分区”,然后执行“ DESERIALIZETOOBJECT”,然后执行“ WHOLESTAGECODEGEN”,然后在JOB 8中再次执行“ MAP” “>” MAPPARTITIONSINTERNAL“>” WHOLESTAGECODEGEN“

0 个答案:

没有答案