当我使用python库gensim
并训练Word2Vec模型时,我可以像这样word2vec_result.similarity('apple','banana')
调用函数来获得本地机器上苹果和香蕉之间的余弦相似性。
但是在pyspark(version2.2)
中,在建立模型后,我在文档中找不到相同的功能。
代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from pyspark.mllib.feature import Word2Vec
from pyspark.mllib.feature import Word2VecModel
from pyspark import SparkConf, SparkContext
import logging
directory = "data_path"
inp = sc.textFile(directory).map(lambda row: row.split(" "))
model = word2vec_run(inp)
model.save(sc, "/data/word2vec_model")
有没有简单的方法来实现目标?