是否可以使用Spark ML进行小批量或迭代训练?
假设通过逻辑回归执行二进制分类任务。管道阶段很简单: 1.获取数据。 2.转换数据。 3.创建模型。 4.拟合数据。 5.评估。
第3步通常使用类LogisticRegression。我想做的是对数据的不同部分多次运行步骤4。这就是所谓的在线学习,它基本上意味着在新数据到达时对模型进行训练。
我看到了similar question,但是那里的答案没有任何意义。是的,我们可以保存和加载管道,但是似乎无法更新已加载的管道。
有关可能重复项的更新。
我的问题是关于Spark ML库(基于DataFrame的API),而不是Spark MLlib库(基于RDD的API)。 this question中的建议答案适用于基于RDD的API。