我正在火花中运行 word2vec ,当涉及到fit()
时,在UI中只会观察到一个任务,如图像中所示:
根据配置num-executors = 1000, executor-cores = 2
。 RDD合并到2000个分区。 mapPartitionsWithIndex
需要相当长的时间。它可以分发给多个执行者或任务吗?
答案 0 :(得分:6)
setNumPartitions(numPartitions: Int)
解决了我的问题。我没有检查默认值。
设置分区数(默认值:1)。