Spark - PIC的相似之处,是一个更小的值更相似或更少?

时间:2017-06-02 19:22:22

标签: scala apache-spark apache-spark-mllib

这是在Spark 1.6.2

我尝试使用Power Iteration Clustering,但遇到了问题。它需要RDD[(Long,Long,Double)]表示稀疏亲和度矩阵,但我不清楚相似度值。 run function可以说明similarities参数:

  

表示亲和度矩阵的(i,j,s ij )元组的RDD,其是PIC论文中的矩阵A.相似度s ij 必须是非负的。这是对称矩阵,因此s ij = s ji 。对于具有非零相似性的任何(i,j),输入中应该有(i,j,s ij )或(j,i,s ji )。 忽略i = j的元组,因为我们假设s ij = 0.0。

因为这假设i = j的元组假设具有0.0的相似性,所以我认为s ij 的值越小,i和j越相似。 0.0的相似性意味着它们是相同的。

Power迭代聚类的documentation表示以下与缺少的i,j对相关。

  

如果输入中缺少一对,则它们的相似性被视为零。

我可以从中得出结论:零等于完全不相似,或者缺失对的默认处理是将它们视为相等。

我发现很难相信稀疏亲和矩阵中缺失的对将被视为相同,这意味着这两个文档源是相反的。哪一个是正确的? 0的相似性是指一对是相同的,还是可以是不同的?

0 个答案:

没有答案