在50k记录上运行Cosine Similarity

时间:2017-02-18 04:22:18

标签: scala apache-spark apache-spark-mllib cosine-similarity

我在spark mllib中使用spark 1.6余弦相似算法。

输入:带有数据帧中ID的50k文档文本。

处理:

  • 对文本进行标记
  • 删除了停用词
  • 使用word2Vec生成的向量(大小= 300)
  • 生成RowMatrix
  • 转置它
  • 使用了具有阈值0.1的columnSimilarities方法。(也累得更高 值)

输出是nxn矩阵。

我正在使用这个火花提交

spark-submit --master yarn --conf“spark.kryoserializer.buffer.max = 256m”--num-executors 60 --driver-memory 10G --executor-memory 15G --execeror-cores 5 - conf“spark.shuffle.service.enabled = true”--conf“spark.yarn.executor.memoryOverhead = 2048”noname.jar xyzclass

我也在做400个分区。 但我的内存问题已经过时了。我已经厌倦了分区和执行程序数量的不同组合,但未能成功运行它。但是我能够在不到7分钟的时间内成功运行7k记录,矢量大小为50。有关如何使其在50K记录上运行的任何建议吗?

0 个答案:

没有答案