计算Spark中的滑动窗口平均值

时间:2018-11-28 19:17:52

标签: apache-spark hadoop rdd apache-spark-mllib parquet

我要计算“ AGE”的滑动窗口平均值,该平均值是CSV文件或Parquet文件中的列之一。 滑动窗口的示例插图如下,

AGE         =[12,31,17,15,44,33,19,21,25,26,70,12]
WINDOW SIZE = 3
WINDOWS     =[ [12,31,17],[31,17,15],[17,15,44],
                                    [15,44,33,19],....[26,70,12] ]
Avgs        = Avg[12,31,17] , avg[31,17,15] .... avg[[26,70,12]]

预期的挑战:

  • 窗口大小可以自定义,例如10,50 ..或任何整数。
  • 一个陷阱是,一个窗口可能与“分割”或“分区”重叠。需要处理 那。
  • 数据可以来自CSV,ORC或PARQUET文件。
    • 如果没有针对所有人的修订,我们可以采用3种不同的实现方式

0 个答案:

没有答案