我对Spark非常陌生,并尝试使用以下命令在spark UI中检查DAG创建:
当我使用命令读取简单的csv文件时
val df = spark.read.format("csv").option("header", "true").load("/home/user/test.csv") then in spark only 1 STAGE is creating with DAG as :
我不理解它是什么以及为什么是“ MAP”>“ MAPPARTITIONSINTERNAL”>“ WHOLESTAGECODEGEN”
当我运行包含“ inferschema”选项为TRUE的命令时,正在创建2个阶段:
spark.read.format(“ csv”)。option(“ header”,“ true”)。option(“ inferSchema”,true).load(“ / home / user / test.csv”) 每个阶段都有自己的DAG
第1阶段DAG:
任何人都可以帮我吗,为什么当推理模式为TRUE时它会创建两个阶段,从那里我可以得到“ DESERIALIZETOOBJECT“>“ MAP”等阶段中提到的术语阐述。
等待有价值的输入,这有助于详细了解DAG,关于为何在JOB 7中执行多个“ MAP分区”,然后执行“ DESERIALIZETOOBJECT”,然后执行“ WHOLESTAGECODEGEN”,然后在JOB 8中再次执行“ MAP” “>” MAPPARTITIONSINTERNAL“>” WHOLESTAGECODEGEN“