应用错误收集

用于聚合的Spark数据集或数据帧

时间：2017-10-17 19:13:48

标签： apache-spark-sql spark-dataframe apache-spark-dataset apache-spark-2.0 databricks

我们有一个Spark版本2.0的MapR集群我们正在尝试测量当前在TEZ引擎上运行的Hive查询的性能差异，然后只需在.hql文件中编写sql查询然后通过shell文件调用它就在Spark-sql上运行它。

查询包含大量的Join，这肯定会创建多个阶段，并且在此场景中将进行混乱，这将是最佳选择。？

Spark中的数据集是否比用于执行groupBy，max，min，count..etc等聚合的数据帧慢。

那么所有领域的数据帧表现都比数据集更好，反之亦然。？

1 个答案:

答案 0 :(得分：0)

在Spark 2.0中，数据集[Row]是Dataframe的别名，因此不应存在任何性能问题。

请参阅：