Question

我是pyspark的新手，正在尝试重新创建我在python中编写的代码。我正在尝试创建一个新数据框，该数据框具有来自旧数据框的每60个观测值的平均值。这是我在旧python中实现的代码：

new_df=old_df.groupby(old_df.index // 60).mean()

我正在努力使用pyspark在databricks中做同样的事情。

Answer 1

我认为，如果数据框中有一个索引列，则可以执行与您建议的类似的操作：

new_df=old_df.withColumn("new_index", col(index)/60).groupBy("new_index").agg(avg(YOUR_COLUMN_FOR_AVERAGE))

最好的问候，