我有一个适合在各种项目中使用的word2vec模型。
那是我创建了一个Word2Vec Estimator,并将其拟合到我的数据集中。这给了我一个Word2VecModel,可以保存。现在如何将该模型添加到管道中?
优选地,我仍然希望能够“适应”管道,但不包括要重新适应的Word2VecModel。但是最后一部分是可选的。
理想情况下,我想在pyspark中执行此操作。但这也是可选的。
答案 0 :(得分:2)
只需按原样添加即可。例如,如果您有
from pyspark.ml.feature import Word2VecModel
w2vmodel = Word2VecModel.load(...)
可以
from pyspark.ml import Pipeline
Pipeline(stages=[w2vmodel]).fit(df).transform(df)