' Hive on Spark模式和#39;之间有什么区别?和“Spark SQL&#39 ;?将在Spark模式下进行Hive'使用Catalyst Optimizer?

时间:2018-05-28 02:11:37

标签: apache-spark hive apache-spark-sql

  • 火花模式下的蜂巢与MR模式
  • Spark SQL
  • Catalyst Optimizer / RDD / Tungsten

1 个答案:

答案 0 :(得分:0)

Spark上的Hive与通过HiveContext使用Spark SQL运行Hive查询不同。它不会将查询转换为Spark原语,而是将它们转换为MapReduce原语并在Spark上执行。它的主要目的是利用Spark引擎引擎,而不会影响Hive中的现有代码。

在内部,它将Hive的逻辑运算符转换为Spark任务,主要是RDD转换和操作,并且尚未使用Dataframe(根据官方文档),因此它不会使用Tungsten或Catalyst Optimizer。 / p>

以下文档提到官方文档中提供的Hive on Spark的所有设计考虑因素 -

Hive on Spark Mode Design