Question

当我尝试进行此聚合时，我的内存不足。它工作正常，但在一小部分数据上非常慢。我在pySpark中运行它。是否有另一种方法可以根据运行得更好的特定组获取列的平均值？

df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")

Answer 1

我唯一能想到的是id和timestamp的数据结构。确保这两个不是字符串。尝试减小类型的大小或更改df的架构。