答案 0 :(得分:0)
Spark上的Hive与通过HiveContext使用Spark SQL运行Hive查询不同。它不会将查询转换为Spark原语,而是将它们转换为MapReduce原语并在Spark上执行。它的主要目的是利用Spark引擎引擎,而不会影响Hive中的现有代码。
在内部,它将Hive的逻辑运算符转换为Spark任务,主要是RDD转换和操作,并且尚未使用Dataframe(根据官方文档),因此它不会使用Tungsten或Catalyst Optimizer。 / p>
以下文档提到官方文档中提供的Hive on Spark的所有设计考虑因素 -