apache-spark - Spark ML的小批量/在线培训

是否可以使用Spark ML进行小批量或迭代训练？

假设通过逻辑回归执行二进制分类任务。管道阶段很简单： 1.获取数据。 2.转换数据。 3.创建模型。 4.拟合数据。 5.评估。

第3步通常使用类LogisticRegression。我想做的是对数据的不同部分多次运行步骤4。这就是所谓的在线学习，它基本上意味着在新数据到达时对模型进行训练。

我看到了similar question，但是那里的答案没有任何意义。是的，我们可以保存和加载管道，但是似乎无法更新已加载的管道。

有关可能重复项的更新。

我的问题是关于Spark ML库（基于DataFrame的API），而不是Spark MLlib库（基于RDD的API）。 this question中的建议答案适用于基于RDD的API。