将配置单元查询转换为Spark-SQL

时间:2018-06-17 09:32:08

标签: apache-spark hive apache-spark-sql

我有一个hive查询,每天以map-reduce模式运行。总处理时间需要20分钟,根据我们的日常流程很好。 我期待在spark框架中执行。

首先,我在hive shell中设置了执行引擎= spark并执行了相同的查询。

该过程有转换和操作,整个查询大约8分钟完成。此查询具有多个子查询,IN子句和where条件。 问题是,spark-environment如何创建RDD复杂查询(假设我刚刚运行与hive相同的查询)。它是否为每个子查询创建RDD?

现在我想利用spark-sql代替hive查询。在我们有很多子查询和聚合的情况下,我们应该如何处理这类复杂问题。 我理解,对于关系数据计算,我们需要利用数据框。

这是一种正确的方法,可以在spark-sql中重写它们,或者继续设置执行引擎= spark并运行hive查询。 如果在spark-sql中编写查询并在spark上运行有优势,那么优势是什么。

对于所有子查询以及各种过滤器和聚合逻辑,数据帧API的性能如何。

0 个答案:

没有答案