pyspark每n行聚合

时间:2018-08-28 19:26:31

标签: pyspark aggregation databricks

我是pyspark的新手,正在尝试重新创建我在python中编写的代码。我正在尝试创建一个新数据框,该数据框具有来自旧数据框的每60个观测值的平均值。这是我在旧python中实现的代码:

new_df=old_df.groupby(old_df.index // 60).mean()

我正在努力使用pyspark在databricks中做同样的事情。

1 个答案:

答案 0 :(得分:0)

我认为,如果数据框中有一个索引列,则可以执行与您建议的类似的操作:

new_df=old_df.withColumn("new_index", col(index)/60).groupBy("new_index").agg(avg(YOUR_COLUMN_FOR_AVERAGE))

最好的问候,