PySpark - Word2Vec加载模型,不能使用findSynonyms来获取单词

时间:2016-03-06 01:58:38

标签: apache-spark pyspark word2vec

我已经使用PySpark训练了一个Word2Vec模型并保存了它。加载模型时.findSynonyms方法不起作用。

model = word2vec.fit(text)
model.save(sc, 'w2v_model')
new_model = Word2VecModel.load(sc, 'w2v_model')
new_model.findSynonyms('word', 4)

收到以下错误:

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/mllib/feature.py", line 487, in findSynonyms
words, similarity = self.call("findSynonyms", word, num)
ValueError: too many values to unpack

我找到了以下内容,但不确定问题是如何解决的:https://issues.apache.org/jira/browse/SPARK-12016

如果有任何解决方法,请告诉我!

非常感谢。

1 个答案:

答案 0 :(得分:1)

看起来已修复1.6.1而不是1.5.2。

该错误不是关于findSynonyms,而是关于Word2VecModel.load。 我检查它适用于1.6.1。加载模型并调用findSynonyms方法时没有错误。

我猜v.1.5.2尚未修复。