我正在尝试通过查询对140万条记录的数据集进行分组。
使用Hive需要2分钟而火花需要大约40分钟才能获得相同的资源
我确信我做错了,因为蜂巢和火花之间的区别与简单的基本查询没有意义
我尝试用两种方式做到这一点:
1.
Dataset <row> ds = batchDs.select (
col ("key"),
col ("ts")).groupby (col ("key"),col("ts"))
2.
sparkSession.sql ("select ket ts from x group by key,ts")
两个查询都需要40分钟。我知道在这种情况下我可以做到与众不同,但这不是我真正的问题。
我试图做分区并获得相同的不良性能,所以我尝试通过更基本的操作来简化问题,这与基于分区(分组)非常相似
和想法?谢谢