我有一个应用程序,它在客户端模式下并行提交多个spark应用程序。编写spark应用程序时需要遵循的指导原则是驱动程序内存不会溢出。
我在火花中所做的操作如下:
val df1:从文件读取数据到数据帧
val df2:在df1上求和(col4)sum(col5)
val df3:在col2上排序df2
val df4:df3.limit(threshould)
val结果:用文字填充空格
将结果保存(写入)
我在这里创建多个数据框。所有这些数据帧都被带回驱动程序吗?在一个步骤中执行多个操作会使客户端(驱动程序)内存有效吗?
我看了https://spark.apache.org/docs/latest/programming-guide.html,但没有回答我的问题。