我是Spark初学者!而且,我对Spark rdd和Spark sql之间的关系感到困惑。 Spark sql是否应该在后台转换为Spark rdd?
答案 0 :(得分:1)
据我所知,他们坐在不同的发动机上。
Spark SQL利用一个名为Catalyst的内部事物,它负责为工作生成逻辑计划并执行与codegen相关的性能优化。
另一方面,RDD api是低水平的,显然不利用催化剂。首先,因为DataFrame和Dataset API是建立在 Spark SQL引擎,它使用Catalyst生成优化的逻辑 和物理查询计划。