Spark Group By / Over Partition具有糟糕的性能Java

时间:2018-01-01 08:10:13

标签: apache-spark group-by hive apache-spark-sql analytic-functions

我正在尝试通过查询对140万条记录的数据集进行分组。
使用Hive需要2分钟而火花需要大约40分钟才能获得相同的资源 我确信我做错了,因为蜂巢和火花之间的区别与简单的基本查询没有意义 我尝试用两种方式做到这一点:
1.

Dataset <row> ds = batchDs.select (
col ("key"),
col ("ts")).groupby (col ("key"),col("ts"))


2.

sparkSession.sql ("select ket ts from x group by key,ts")


两个查询都需要40分钟。我知道在这种情况下我可以做到与众不同,但这不是我真正的问题。
我试图做分区并获得相同的不良性能,所以我尝试通过更基本的操作来简化问题,这与基于分区(分组)非常相似 和想法?谢谢

0 个答案:

没有答案