应用错误收集

时间：2019-03-27 13:30:38

标签： apache-spark pyspark h2o sparkling-water

我目前正在尝试苏打水的可能性。有几种可能的用例，包括H2O / Spark中的数据合并，模型构建以及脱机训练和在线流预测。我想知道是否还可以将苏打水与Kafka流媒体一起用于在线培训？

答案 0 :(得分：0)

如果您不断提供新数据，则深度学习模型尤其可以持续不断地进行训练。这样您就可以进行在线培训了。

DRM和GBM之类的模型可以使用检查点从新数据中“添加另一棵树”，尽管您确实不想以无限树结尾。

您可以保留一个数据窗口，并定期训练新的完整模型。（在运行时交换新模型实例非常简单。因此，您可以在后台进行培训，并定期更新预测流数据的模型，例如每小时或每隔几分钟，等等）。

或者通过平均许多模型的预测来进行自己的汇总-通过定期丢弃旧模型并在传送带类型的策略中添加新模型。类似于移动平均线。