大查询或变异Dataframe?

时间:2017-06-28 13:51:22

标签: apache-spark hive apache-spark-sql

我正在使用SparkSession连接到配置单元数据库。我试图确定什么是丰富数据的最佳方式。我使用的是Spark Sql,但我厌倦了使用它。

  1. SparkSql是否只调用Hive Sql?那么这意味着使用Spark没有改进的性能吗?

  2. 如果没有,我应该创建一个大的SQL查询来激发,还是我应该抓住一个表,我不想将它转换为数据帧并使用sparks函数对其进行操作?

    < / LI>

1 个答案:

答案 0 :(得分:0)

  1. 不,Spark会从Hive读取数据,但使用自己的执行引擎。性能和功能会有所不同。多少取决于您用于Hive的执行引擎。 (M / R,Tez,Spark,LLAP?)
  2. 那是一回事。我会坚持SQL查询,并在开始时针对Hive进行AB测试,但SQL很难维护,其中使用Spark的DataSet API的Scala / Python代码在长期内更加用户友好。