应用错误收集

我有一个gensim Word2Vec KeyedVectors模型。出于速度目的，我想并行化我的程序，以便它可以在Spark环境中运行。但是，据我所知，Spark的RDD仅适用于集合和迭代。我不认为通过简单地将KeyedVectors模型放入RDD就可以看到性能提升。

我已经探索过将模型存储为广播变量，但它太大了。分区（使用RDD）看起来是最好的选择。

如果我想通过将模型转换为Spark中的并行集合来提升我的程序性能，我将如何进行此操作？