H2O苏打水是否允许使用Kafka作为流源进行在线培训

时间:2019-03-27 13:30:38

标签: apache-spark pyspark h2o sparkling-water

我目前正在尝试苏打水的可能性。有几种可能的用例,包括H2O / Spark中的数据合并,模型构建以及脱机训练和在线流预测。我想知道是否还可以将苏打水与Kafka流媒体一起用于在线培训?

1 个答案:

答案 0 :(得分:0)

如果您不断提供新数据,则深度学习模型尤其可以持续不断地进行训练。这样您就可以进行在线培训了。

DRM和GBM之类的模型可以使用检查点从新数据中“添加另一棵树”,尽管您确实不想以无限树结尾。

您可以保留一个数据窗口,并定期训练新的完整模型。 (在运行时交换新模型实例非常简单。因此,您可以在后台进行培训,并定期更新预测流数据的模型,例如每小时或每隔几分钟,等等)。

或者通过平均许多模型的预测来进行自己的汇总-通过定期丢弃旧模型并在传送带类型的策略中添加新模型。类似于移动平均线。