Question

我正在使用Spark Word2vec API构建单词向量。代码：

val w2v = new Word2Vec()
            .setInputCol("words")
            .setOutputCol("features")
            .setMinCount(5)

但是，这个过程太慢了。我查看了Spark Monitor网站，其中有两项工作需要长时间运行。

我的计算机环境具有24核CPU和100G内存，如何有效地使用它们？

Answer 1

我将尝试增加要进行特征提取的数据框中的分区数量。散乱者很可能是由于数据中的偏斜导致大多数数据由一个节点或核心处理。如果可能，请通过逻辑分区分配数据，否则请创建随机的平均分配。