Question

在Spark中寻找分布式增量模型培训。例如：

对model_1进行培训以对网络文本进行分类。
Model_1保存到文件系统。
新文本被分类。人类专家非常分类结果和选择正确分类的文本。
使用旧的model_1训练Model_2，并在上一步中选择正确分类的文本。

可以使用Spark MLLib完成吗？其他方法吗？

Answer 1

在Spark中，您无法逐步重新训练或向训练集添加示例。在专家分类之后，您可以创建一个新数据集（使用旧的+新示例）并从头开始重新训练模型。

您还可以使用旧+新模型创建合奏并相应地加权

据我所知（我希望有人证明我错了）没有任何框架可以提供开箱即用的增量学习。所以你需要自己实现增量机制。在大多数简单情况下，集合是一组模型预测的加权和。

示例：您有两个二进制分类器，它们返回两个概率和预测。

(probability of negative; probability of positive) => prediction

first: (0.40; 0.60) => 1
second: (0.30; 0.70) => 1

suppose your ensemble weights both models with equal weights, 0.5
ensemble (0.35; 0.65) => 1

其中：负概率=第一模型的负概率*第一模型的权重+第二模型的负概率*第二模型的权重

Spark：分布式增量模型培训？

1 个答案: