在以下伪代码中,这些伪代码在驱动程序中执行,在执行程序中执行?为什么??
数据集1 =数据集0(从数据集0导出数据集1)
数据集2 =数据集1,数据集0
对数据集2的操作
数据集3 =数据集1,数据集2
也请在下面的伪代码中告诉我
dataframe = spark.sql(“从emp选择*”) dataframe = dataframe.withColumn(“全名”,dataframe.empfirstname + dataframe.emplastname) dataframe.count() dataframe.show()
答案 0 :(得分:0)
两者。在驱动程序上,Spark将带您的代码并编译一个执行图,并创建一系列基于rdd的转换,这些转换将大部分在执行程序上运行。 Spark足够聪明,可以识别某些数据帧足够小,可以直接从驱动程序读取。切入点通常为10MB。一旦大部分执行工作发生在作品上,.show(..)函数就会从执行程序加载输出数据以进行显示。使用.explain()获得火花以打印查询计划。