我正在使用spark 1.6余弦相似度(DIMSUM)算法。
这就是我在做什么。
输入: 50k文件'带有数据框中ID的文本。
处理:
输出:
我不明白133和185的数字是什么。我猜这些是文件ID /序号,但我不确定。有人可以帮忙吗?
如果这个问题非常简单,请道歉。
答案 0 :(得分:0)
MatrixEntry(i, j, value)
代表第i列和第j列之间的相似性,所以
MatrixEntry(133,185,0.04106425850610451)
是第133和第185列之间的相似性。这些值对应于术语而不是文档。