与Word2Vec和Pyspark并行查找同义词

时间:2018-05-25 19:17:34

标签: apache-spark pyspark rdd apache-spark-mllib word2vec

我最近一直在尝试使用Word2Vec和PySpark。

虽然我可以在20分钟内训练一个非常大的模型,使用几乎所有64个云实例的核心,但是获取所有单词及其同义词需要将近3个小时。

当我尝试在句子RDD中映射lambda x: model.findSynonyms(x)时,我收到以下错误:

Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation.SparkContext can only be used on the driver, not in code that it run on workers.

在这个确切的用例中,我必须找到词汇表中每个单词的100个最相似的单词。有没有什么方法可以比一次找到一个同义词更快?

0 个答案:

没有答案