我最近一直在尝试使用Word2Vec和PySpark。
虽然我可以在20分钟内训练一个非常大的模型,使用几乎所有64个云实例的核心,但是获取所有单词及其同义词需要将近3个小时。
当我尝试在句子RDD中映射lambda x: model.findSynonyms(x)
时,我收到以下错误:
Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transformation.SparkContext can only be used on the driver, not in code that it run on workers.
在这个确切的用例中,我必须找到词汇表中每个单词的100个最相似的单词。有没有什么方法可以比一次找到一个同义词更快?