如何计算pyspark中Word2Vec模型中两个单词之间的余弦相似度

时间:2017-08-15 06:44:55

标签: python pyspark word2vec gensim

当我使用python库gensim并训练Word2Vec模型时,我可以像这样word2vec_result.similarity('apple','banana')调用函数来获得本地机器上苹果和香蕉之间的余弦相似性。
但是在pyspark(version2.2)中,在建立模型后,我在文档中找不到相同的功能。

代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from pyspark.mllib.feature import Word2Vec
from pyspark.mllib.feature import Word2VecModel
from pyspark import SparkConf, SparkContext
import logging
directory = "data_path"  
inp = sc.textFile(directory).map(lambda row: row.split(" "))
model = word2vec_run(inp)
model.save(sc, "/data/word2vec_model")

有没有简单的方法来实现目标?

0 个答案:

没有答案