如何在使用spark时增量加载,适应新数据,保存管道模型?

时间:2019-04-20 17:53:26

标签: apache-spark apache-spark-mllib apache-spark-ml

用于逐步训练和构建模型的任何指针,并获得单个元素的预测。

尝试运行Web应用程序将在共享路径中将数据写入csv,而ml应用程序将读取数据并加载模型,尝试拟合数据并保存模型,转换测试数据。 (这应该是循环发生的)

但是当第二次加载保存的模型时,遇到以下异常, (上午使用minmax缩放器对数据进行归一化)

线程“主”中的异常java.lang.IllegalArgumentException:输出列features_intermediate已存在。

任何指针将不胜感激,谢谢

error

1 个答案:

答案 0 :(得分:0)

我想出了一种至少可以绕开异常的方法,不确定是否正确。在加载模型后创建管道的过程中,将阶段设置为仅模型,因为模型具有已经用各自的模式定义了。不知道这是否会规范化新数据。

  pipeline = new Pipeline().setStages(Array( lr1))