我是pyspark的新手,正在尝试重新创建我在python中编写的代码。我正在尝试创建一个新数据框,该数据框具有来自旧数据框的每60个观测值的平均值。这是我在旧python中实现的代码:
new_df=old_df.groupby(old_df.index // 60).mean()
我正在努力使用pyspark在databricks中做同样的事情。
答案 0 :(得分:0)
我认为,如果数据框中有一个索引列,则可以执行与您建议的类似的操作:
new_df=old_df.withColumn("new_index", col(index)/60).groupBy("new_index").agg(avg(YOUR_COLUMN_FOR_AVERAGE))
最好的问候,