用于聚合的Spark数据集或数据帧

时间:2017-10-17 19:13:48

标签: apache-spark-sql spark-dataframe apache-spark-dataset apache-spark-2.0 databricks

我们有一个Spark版本2.0的MapR集群 我们正在尝试测量当前在TEZ引擎上运行的Hive查询的性能差异,然后只需在.hql文件中编写sql查询然后通过shell文件调用它就在Spark-sql上运行它。

查询包含大量的Join,这肯定会创建多个阶段,并且在此场景中将进行混乱,这将是最佳选择。?

Spark中的数据集是否比用于执行groupBy,max,min,count..etc等聚合的数据帧慢。

那么所有领域的数据帧表现都比数据集更好,反之亦然。?

1 个答案:

答案 0 :(得分:0)

在Spark 2.0中,数据集[Row]是Dataframe的别名,因此不应存在任何性能问题。

请参阅: