Question

我正在使用spark 1.6余弦相似度（DIMSUM）算法。

这就是我在做什么。

输入： 50k文件＆＃39;带有数据框中ID的文本。

处理：

输出：

我不明白133和185的数字是什么。我猜这些是文件ID /序号，但我不确定。有人可以帮忙吗？

如果这个问题非常简单，请道歉。

Answer 1

MatrixEntry(i, j, value)代表第i列和第j列之间的相似性，所以

MatrixEntry(133,185,0.04106425850610451)

是第133和第185列之间的相似性。这些值对应于术语而不是文档。