Question

我有一个适合在各种项目中使用的word2vec模型。

那是我创建了一个Word2Vec Estimator，并将其拟合到我的数据集中。这给了我一个Word2VecModel，可以保存。现在如何将该模型添加到管道中？

优选地，我仍然希望能够“适应”管道，但不包括要重新适应的Word2VecModel。但是最后一部分是可选的。

理想情况下，我想在pyspark中执行此操作。但这也是可选的。

Answer 1

只需按原样添加即可。例如，如果您有

from pyspark.ml.feature import Word2VecModel 

w2vmodel = Word2VecModel.load(...)

可以

from pyspark.ml import Pipeline

Pipeline(stages=[w2vmodel]).fit(df).transform(df)