Spark - 重新加载已保存的特征化管道与实例化具有相同阶段的新管道

时间:2016-08-18 14:23:21

标签: scala apache-spark apache-spark-mllib

我想检查一下我是否遗漏了重要的一点。

我的管道用于特征化。我理解,一旦安装了包含Estimator的管道;然后保存管道将持续Estimator学到的参数。因此,在这种情况下加载已保存的管道意味着无需重新训练Estimator;这是一个重点。

然而;对于仅包含许多变换阶段的管道的情况;我总是会使用以下两种方法之一从输入数据集中获取相同的结果吗?

1)

  1. 创建具有一定阶段的管道;和每个阶段的配置。
  2. 保存并重新加载管道。
  3. 转换输入数据集
  4. 2)

    1. 每次只是实例化一个新的管道(当然具有完全相同的一组阶段;以及每个阶段的配置)
    2. 转换输入数据集
    3. 因此;另一种措辞是;只要确切的阶段;并且每个阶段的配置是已知的;特征化管道可以有效地(因为没有“训练估计器”阶段)重新创建而不使用保存或加载?

      谢谢, 布伦特

0 个答案:

没有答案