Spark:分布式增量模型培训?

时间:2018-02-21 04:09:40

标签: apache-spark

在Spark中寻找分布式增量模型培训。例如:

  • 对model_1进行培训以对网络文本进行分类。
  • Model_1保存到文件系统。
  • 新文本被分类。人类专家非常分类结果和选择正确分类的文本。
  • 使用旧的model_1训练Model_2,并在上一步中选择正确分类的文本。

可以使用Spark MLLib完成吗?其他方法吗?

1 个答案:

答案 0 :(得分:0)

在Spark中,您无法逐步重新训练或向训练集添加示例。 在专家分类之后,您可以创建一个新数据集(使用旧的+新示例)并从头开始重新训练模型。

您还可以使用旧+新模型创建合奏并相应地加权

据我所知(我希望有人证明我错了)没有任何框架可以提供开箱即用的增量学习。所以你需要自己实现增量机制。在大多数简单情况下,集合是一组模型预测的加权和。

示例:您有两个二进制分类器,它们返回两个概率和预测。

(probability of negative; probability of positive) => prediction

first: (0.40; 0.60) => 1
second: (0.30; 0.70) => 1

suppose your ensemble weights both models with equal weights, 0.5
ensemble (0.35; 0.65) => 1

其中: 负概率=第一模型的负概率*第一模型的权重+第二模型的负概率*第二模型的权重