Question

我对Spark非常陌生，并尝试使用以下命令在spark UI中检查DAG创建：

当我使用命令读取简单的csv文件时

val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :

我不理解它是什么以及为什么是“ MAP”>“ MAPPARTITIONSINTERNAL”>“ WHOLESTAGECODEGEN”

当我运行包含“ inferschema”选项为TRUE的命令时，正在创建2个阶段：

spark.read.format（“ csv”）。option（“ header”，“ true”）。option（“ inferSchema”，true）.load（“ / home / user / test.csv”）每个阶段都有自己的DAG

第1阶段DAG：

第2阶段DAG：

任何人都可以帮我吗，为什么当推理模式为TRUE时它会创建两个阶段，从那里我可以得到“ DESERIALIZETOOBJECT“>“ MAP”等阶段中提到的术语阐述。

等待有价值的输入，这有助于详细了解DAG，关于为何在JOB 7中执行多个“ MAP分区”，然后执行“ DESERIALIZETOOBJECT”，然后执行“ WHOLESTAGECODEGEN”，然后在JOB 8中再次执行“ MAP” “>” MAPPARTITIONSINTERNAL“>” WHOLESTAGECODEGEN“

火花中的工作执行

0 个答案: