我已经通过spark批处理作业在hdfs中保留了机器学习模型,我在我的火花流中消耗了它。基本上,ML模型被广播给火花驱动器的所有执行器。 有人可以建议我如何在不停止火花流工作的情况下实时更新模型吗?基本上,当有更多数据点可用时,会创建一个新的ML模型,但不知道如何将新模型发送给spark执行器。 请求发布一些示例代码。
此致 迪帕克。
答案 0 :(得分:0)
最好的方法可能是updating the model on each batch。由于您可能不希望经常更新,因此您可能想要check if you actually need to load the model and skip that if possible。
如果模型存储在hdfs上,则只需在更新保存已加载模型的变量的值之前检查模型文件上的新时间戳(或目录中存在的新模型)即可。