了解Spark CosineSimillarity输出

时间:2017-01-31 19:02:46

标签: algorithm scala apache-spark cosine-similarity

我正在使用spark 1.6余弦相似度(DIMSUM)算法。

参考:https://github.com/eBay/Spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/CosineSimilarity.scala

这就是我在做什么。

输入: 50k文件'带有数据框中ID的文本。

处理:

  • 对文本进行标记
  • 使用word2Vec生成的向量
  • 生成RowMatrix
  • 使用了具有阈值(DIMSUM)的columnSimilarities方法

输出:

  • 有一个坐标矩阵
  • 在打印出这个坐标矩阵的条目时,我得到了输出 格式示例:MatrixEntry(133,185,0.04106425850610451)

我不明白133和185的数字是什么。我猜这些是文件ID /序号,但我不确定。有人可以帮忙吗?

如果这个问题非常简单,请道歉。

1 个答案:

答案 0 :(得分:0)

MatrixEntry(i, j, value)代表第i列和第j列之间的相似性,所以

MatrixEntry(133,185,0.04106425850610451)

是第133和第185列之间的相似性。这些值对应于术语而不是文档。