Spark ML的小批量/在线培训

时间:2019-03-01 13:21:56

标签: apache-spark pyspark spark-streaming apache-spark-mllib databricks

是否可以使用Spark ML进行小批量或迭代训练?

假设通过逻辑回归执行二进制分类任务。管道阶段很简单: 1.获取数据。 2.转换数据。 3.创建模型。 4.拟合数据。 5.评估。

第3步通常使用类LogisticRegression。我想做的是对数据的不同部分多次运行步骤4。这就是所谓的在线学习,它基本上意味着在新数据到达时对模型进行训练

我看到了similar question,但是那里的答案没有任何意义。是的,我们可以保存和加载管道,但是似乎无法更新已加载的管道。

有关可能重复项的更新。

我的问题是关于Spark ML库(基于DataFrame的API),而不是Spark MLlib库(基于RDD的API)。 this question中的建议答案适用于基于RDD的API。

0 个答案:

没有答案