在Spark中进行聚合的最佳方式

时间:2016-08-23 22:04:35

标签: apache-spark pyspark spark-dataframe

当我尝试进行此聚合时,我的内存不足。它工作正常,但在一小部分数据上非常慢。我在pySpark中运行它。是否有另一种方法可以根据运行得更好的特定组获取列的平均值?

df = df.groupBy("id", "timestamp").avg("accel_lat", "accel_long", "accel_vert")

1 个答案:

答案 0 :(得分:0)

我唯一能想到的是id和timestamp的数据结构。确保这两个不是字符串。尝试减小类型的大小或更改df的架构。