我对机器学习很陌生,所以我需要一些帮助。
我有火花流媒体工作,它将有关用户电力消耗的数据提取到Cassandra。我用这些数据填充多个表格,其中最重要的是“hourly_data”,它指定每个用户在特定小时内花费的电量。
我想做的是预测用户在一天,一个月或一年结束前将花多少钱。
我应该使用哪些库和模型? 回归是我真正需要的吗?
我想我不能在流媒体工作中做预测,但是我需要为此开始一个批处理过程?
此外,如果我可以在特定的日子里绘制预期的用户行为直到当天结束(同样的月份或一年......)会很好.Spark中的哪些库可以帮助我做到这一点?任何教程?
非常感谢
答案 0 :(得分:1)
为了预测一天,一个月和一年,您需要相应地分析您的时间序列。 例如,如果您想预测当天的使用情况。您需要按天汇总每小时数据。 输入数据:
date | hour | consumption|
--------------------------------
2016-05-07 | 01 | 0.3 |
2016-05-07 | 02 | 0.3 |
2016-05-07 | 03 | 0.3 |
2016-05-08 | : | 0.3 |
2016-05-08 | : | 0.3 |
2016-05-09 | 20 | 0.4 |
2016-05-09 | 21 | 0.1 |
2016-05-09 | 22 | 0.2 |
2016-05-09 | 23 | 0.3 |
2016-05-09 | 24 | 0.3 |
您的个人资料系列应为
date | consumption|
--------------------------------
2016-05-07 | 1 |
2016-05-08 | 1.3 |
2016-05-09 | 2.3 |
此外,如果您缺少数据,则必须考虑到这一点。 一旦您分析了数据,您可以尝试不同的模型,如ARIMA,Holt-Winters,还可以尝试一些状态空间模型。至于图书馆 spark-timeseries已实施ARIMA。