应用错误收集

我正在尝试通过查询对140万条记录的数据集进行分组。
使用Hive需要2分钟而火花需要大约40分钟才能获得相同的资源我确信我做错了，因为蜂巢和火花之间的区别与简单的基本查询没有意义我尝试用两种方式做到这一点：
1.

Dataset <row> ds = batchDs.select (
col ("key"),
col ("ts")).groupby (col ("key"),col("ts"))

sparkSession.sql ("select ket ts from x group by key,ts")

两个查询都需要40分钟。我知道在这种情况下我可以做到与众不同，但这不是我真正的问题。
我试图做分区并获得相同的不良性能，所以我尝试通过更基本的操作来简化问题，这与基于分区（分组）非常相似和想法？谢谢