Solu:我把params驱动程序内存40G放在spark-submit中。
问题:我的Spark群集由5个ubuntu服务器组成,每个服务器都有80G内存和24个内核。 word2vec大约是10G newsdata。 我用这样的独立模式提交作业:
spark-submit --name trainNewsdata --class Word2Vec.trainNewsData --master spark:// master:7077 --executor-memory 70G --total-executor-cores 96 sogou.jar hdfs:// master:9000 / user / bd / newsdata / * hdfs:// master:9000 / user / bd / word2vecModel_newsdata
当我在spark中训练word2vec模型时,我发生了: 线程" main"中的例外情况java.lang.OutOfMemoryError:Java堆空间, 而且我不知道如何解决它,请帮助我:)。
答案 0 :(得分:2)
我把params驱动程序内存40G放在spark-submit中,然后解决它。