应用错误收集

我在spark mllib中使用spark 1.6余弦相似算法。

输入：带有数据帧中ID的50k文档文本。

处理：

对文本进行标记
删除了停用词
使用word2Vec生成的向量（大小= 300）
生成RowMatrix
转置它
使用了具有阈值0.1的columnSimilarities方法。（也累得更高值）

输出是nxn矩阵。

我正在使用这个火花提交

spark-submit --master yarn --conf“spark.kryoserializer.buffer.max = 256m”--num-executors 60 --driver-memory 10G --executor-memory 15G --execeror-cores 5 - conf“spark.shuffle.service.enabled = true”--conf“spark.yarn.executor.memoryOverhead = 2048”noname.jar xyzclass

我也在做400个分区。但我的内存问题已经过时了。我已经厌倦了分区和执行程序数量的不同组合，但未能成功运行它。但是我能够在不到7分钟的时间内成功运行7k记录，矢量大小为50。有关如何使其在50K记录上运行的任何建议吗？

在50k记录上运行Cosine Similarity

0 个答案: