Spark rdd和Spark sql之间的关系是什么?

时间:2016-10-11 12:58:44

标签: apache-spark apache-spark-sql

我是Spark初学者!而且,我对Spark rdd和Spark sql之间的关系感到困惑。 Spark sql是否应该在后台转换为Spark rdd?

1 个答案:

答案 0 :(得分:1)

据我所知,他们坐在不同的发动机上。

Spark SQL利用一个名为Catalyst的内部事物,它负责为工作生成逻辑计划并执行与codegen相关的性能优化。

  

首先,因为DataFrame和Dataset API是建立在   Spark SQL引擎,它使用Catalyst生成优化的逻辑   和物理查询计划。

https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

另一方面,RDD api是低水平的,显然不利用催化剂。