应用错误收集

我要计算“ AGE”的滑动窗口平均值，该平均值是CSV文件或Parquet文件中的列之一。滑动窗口的示例插图如下，

AGE         =[12,31,17,15,44,33,19,21,25,26,70,12]
WINDOW SIZE = 3
WINDOWS     =[ [12,31,17],[31,17,15],[17,15,44],
                                    [15,44,33,19],....[26,70,12] ]
Avgs        = Avg[12,31,17] , avg[31,17,15] .... avg[[26,70,12]]

预期的挑战：

窗口大小可以自定义，例如10,50 ..或任何整数。
一个陷阱是，一个窗口可能与“分割”或“分区”重叠。需要处理那。
数据可以来自CSV，ORC或PARQUET文件。
- 如果没有针对所有人的修订，我们可以采用3种不同的实现方式

计算Spark中的滑动窗口平均值

0 个答案: