apache-spark - 与Word2Vec和Pyspark并行查找同义词

我最近一直在尝试使用Word2Vec和PySpark。

虽然我可以在20分钟内训练一个非常大的模型，使用几乎所有64个云实例的核心，但是获取所有单词及其同义词需要将近3个小时。

当我尝试在句子RDD中映射lambda x: model.findSynonyms(x)时，我收到以下错误：

Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation.SparkContext can only be used on the driver, not in code that it run on workers.

在这个确切的用例中，我必须找到词汇表中每个单词的100个最相似的单词。有没有什么方法可以比一次找到一个同义词更快？

与Word2Vec和Pyspark并行查找同义词

0 个答案: