应用错误收集

在下面的伪代码中让我知道，这些伪代码在驱动程序中执行，在执行程序中执行

时间：2019-07-13 17:40:08

标签： apache-spark pyspark

在以下伪代码中，这些伪代码在驱动程序中执行，在执行程序中执行？为什么??

数据集1 =数据集0（从数据集0导出数据集1）
  数据集2 =数据集1，数据集0
  对数据集2的操作
  数据集3 =数据集1，数据集2

也请在下面的伪代码中告诉我

dataframe = spark.sql（“从emp选择*”） dataframe = dataframe.withColumn（“全名”，dataframe.empfirstname + dataframe.emplastname） dataframe.count（） dataframe.show（）

1 个答案:

答案 0 :(得分：0)

两者。在驱动程序上，Spark将带您的代码并编译一个执行图，并创建一系列基于rdd的转换，这些转换将大部分在执行程序上运行。 Spark足够聪明，可以识别某些数据帧足够小，可以直接从驱动程序读取。切入点通常为10MB。一旦大部分执行工作发生在作品上，.show（..）函数就会从执行程序加载输出数据以进行显示。使用.explain（）获得火花以打印查询计划。