在Spark ML Pipeline中将拟合模型添加为PipelineStage

时间:2019-02-25 22:08:21

标签: apache-spark word2vec

我有一个适合在各种项目中使用的word2vec模型。

那是我创建了一个Word2Vec Estimator,并将其拟合到我的数据集中。这给了我一个Word2VecModel,可以保存。现在如何将该模型添加到管道中?

优选地,我仍然希望能够“适应”管道,但不包括要重新适应的Word2VecModel。但是最后一部分是可选的。

理想情况下,我想在pyspark中执行此操作。但这也是可选的。

1 个答案:

答案 0 :(得分:2)

只需按原样添加即可。例如,如果您有

from pyspark.ml.feature import Word2VecModel 

w2vmodel = Word2VecModel.load(...)

可以

from pyspark.ml import Pipeline

Pipeline(stages=[w2vmodel]).fit(df).transform(df)