标签: apache-spark pyspark spark-dataframe
当我尝试进行此聚合时,我的内存不足。它工作正常,但在一小部分数据上非常慢。我在pySpark中运行它。是否有另一种方法可以根据运行得更好的特定组获取列的平均值?
df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")
答案 0 :(得分:0)
我唯一能想到的是id和timestamp的数据结构。确保这两个不是字符串。尝试减小类型的大小或更改df的架构。