在Spark

时间:2017-06-08 15:01:25

标签: apache-spark pyspark rdd gensim word2vec

我有一个gensim Word2Vec KeyedVectors模型。出于速度目的,我想并行化我的程序,以便它可以在Spark环境中运行。但是,据我所知,Spark的RDD仅适用于集合和迭代。我不认为通过简单地将KeyedVectors模型放入RDD就可以看到性能提升。

我已经探索过将模型存储为广播变量,但它太大了。分区(使用RDD)看起来是最好的选择。

如果我想通过将模型转换为Spark中的并行集合来提升我的程序性能,我将如何进行此操作?

0 个答案:

没有答案