Spark& S中的时间序列预测Spark Streaming

时间:2016-05-10 14:11:34

标签: apache-spark machine-learning regression apache-spark-mllib apache-spark-ml

我对机器学习很陌生,所以我需要一些帮助。

我有火花流媒体工作,它将有关用户电力消耗的数据提取到Cassandra。我用这些数据填充多个表格,其中最重要的是“hourly_data”,它指定每个用户在特定小时内花费的电量。

我想做的是预测用户在一天,一个月或一年结束前将花多少钱。

我应该使用哪些库和模型? 回归是我真正需要的吗?

我想我不能在流媒体工作中做预测,但是我需要为此开始一个批处理过程?

此外,如果我可以在特定的日子里绘制预期的用户行为直到当天结束(同样的月份或一年......)会很好.Spark中的哪些库可以帮助我做到这一点?任何教程?

非常感谢

1 个答案:

答案 0 :(得分:1)

为了预测一天,一个月和一年,您需要相应地分析您的时间序列。 例如,如果您想预测当天的使用情况。您需要按天汇总每小时数据。 输入数据:

date       | hour | consumption|
--------------------------------
2016-05-07 | 01   | 0.3        |
2016-05-07 | 02   | 0.3        |
2016-05-07 | 03   | 0.3        |
2016-05-08 | :    | 0.3        |
2016-05-08 | :    | 0.3        |
2016-05-09 | 20   | 0.4        |
2016-05-09 | 21   | 0.1        |
2016-05-09 | 22   | 0.2        |
2016-05-09 | 23   | 0.3        |
2016-05-09 | 24   | 0.3        |

您的个人资料系列应为

date       | consumption|
--------------------------------
2016-05-07 | 1          |
2016-05-08 | 1.3        |
2016-05-09 | 2.3        |

此外,如果您缺少数据,则必须考虑到这一点。 一旦您分析了数据,您可以尝试不同的模型,如ARIMA,Holt-Winters,还可以尝试一些状态空间模型。至于图书馆 spark-timeseries已实施ARIMA。