我目前正在尝试苏打水的可能性。有几种可能的用例,包括H2O / Spark中的数据合并,模型构建以及脱机训练和在线流预测。我想知道是否还可以将苏打水与Kafka流媒体一起用于在线培训?
答案 0 :(得分:0)
如果您不断提供新数据,则深度学习模型尤其可以持续不断地进行训练。这样您就可以进行在线培训了。
DRM和GBM之类的模型可以使用检查点从新数据中“添加另一棵树”,尽管您确实不想以无限树结尾。
您可以保留一个数据窗口,并定期训练新的完整模型。 (在运行时交换新模型实例非常简单。因此,您可以在后台进行培训,并定期更新预测流数据的模型,例如每小时或每隔几分钟,等等)。
或者通过平均许多模型的预测来进行自己的汇总-通过定期丢弃旧模型并在传送带类型的策略中添加新模型。类似于移动平均线。