在mahout谱聚类中,亲和矩阵中的对角元素值应该是多少

时间:2014-09-06 15:27:43

标签: java hadoop mapreduce data-mining mahout

标题告诉所有内容,以下是光谱聚类Spectral clustering Documentation

的链接

它的第一步是为我们的数据点提取相似度矩阵。当它说相似性矩阵时,我假设相同实体(用户,文档等)之间的相似性应该是1(与距离矩阵相反,它是0)。

但在他们的例子中,他们为同一个实体分配了0分:

0,0 0

1,1 0

这里我有点困惑。任何从事光谱聚类的人都可以帮我解决..

P.S。:我有自己的计算相似度得分的方法,所以我不想在构建的mahout函数中使用任何。

提前致谢..

1 个答案:

答案 0 :(得分:0)

我认为我们应该将相似性矩阵看作图论中邻接矩阵的扩展:如果两个节点相邻则为1,如果不相邻,则为0。在您的情况下,所有节点都是相邻的,您通过相似性矩阵来思考这个邻接矩阵,以编码“两个观察有多少是相邻的?”的信息。

由于我们不认为节点与自身相邻,除非它与自身有连接,否则邻接矩阵的对角线设置为0.