应用错误收集

大查询或变异Dataframe？

时间：2017-06-28 13:51:22

标签： apache-spark hive apache-spark-sql

我正在使用SparkSession连接到配置单元数据库。我试图确定什么是丰富数据的最佳方式。我使用的是Spark Sql，但我厌倦了使用它。

SparkSql是否只调用Hive Sql？那么这意味着使用Spark没有改进的性能吗？
如果没有，我应该创建一个大的SQL查询来激发，还是我应该抓住一个表，我不想将它转换为数据帧并使用sparks函数对其进行操作？
< / LI>

1 个答案:

答案 0 :(得分：0)

不，Spark会从Hive读取数据，但使用自己的执行引擎。性能和功能会有所不同。多少取决于您用于Hive的执行引擎。（M / R，Tez，Spark，LLAP？）
那是一回事。我会坚持SQL查询，并在开始时针对Hive进行AB测试，但SQL很难维护，其中使用Spark的DataSet API的Scala / Python代码在长期内更加用户友好。