在Spark中寻找分布式增量模型培训。例如:
可以使用Spark MLLib完成吗?其他方法吗?
答案 0 :(得分:0)
在Spark中,您无法逐步重新训练或向训练集添加示例。 在专家分类之后,您可以创建一个新数据集(使用旧的+新示例)并从头开始重新训练模型。
您还可以使用旧+新模型创建合奏并相应地加权
据我所知(我希望有人证明我错了)没有任何框架可以提供开箱即用的增量学习。所以你需要自己实现增量机制。在大多数简单情况下,集合是一组模型预测的加权和。
示例:您有两个二进制分类器,它们返回两个概率和预测。
(probability of negative; probability of positive) => prediction
first: (0.40; 0.60) => 1
second: (0.30; 0.70) => 1
suppose your ensemble weights both models with equal weights, 0.5
ensemble (0.35; 0.65) => 1
其中: 负概率=第一模型的负概率*第一模型的权重+第二模型的负概率*第二模型的权重