我在spark mllib中使用spark 1.6余弦相似算法。
输入:带有数据帧中ID的50k文档文本。
处理:
输出是nxn矩阵。
我正在使用这个火花提交
spark-submit --master yarn --conf“spark.kryoserializer.buffer.max = 256m”--num-executors 60 --driver-memory 10G --executor-memory 15G --execeror-cores 5 - conf“spark.shuffle.service.enabled = true”--conf“spark.yarn.executor.memoryOverhead = 2048”noname.jar xyzclass
我也在做400个分区。 但我的内存问题已经过时了。我已经厌倦了分区和执行程序数量的不同组合,但未能成功运行它。但是我能够在不到7分钟的时间内成功运行7k记录,矢量大小为50。有关如何使其在50K记录上运行的任何建议吗?