我们有一个Spark版本2.0的MapR集群 我们正在尝试测量当前在TEZ引擎上运行的Hive查询的性能差异,然后只需在.hql文件中编写sql查询然后通过shell文件调用它就在Spark-sql上运行它。
查询包含大量的Join,这肯定会创建多个阶段,并且在此场景中将进行混乱,这将是最佳选择。?
Spark中的数据集是否比用于执行groupBy,max,min,count..etc等聚合的数据帧慢。
那么所有领域的数据帧表现都比数据集更好,反之亦然。?
答案 0 :(得分:0)
在Spark 2.0中,数据集[Row]是Dataframe的别名,因此不应存在任何性能问题。
请参阅: