标题告诉所有内容,以下是光谱聚类Spectral clustering Documentation
的链接它的第一步是为我们的数据点提取相似度矩阵。当它说相似性矩阵时,我假设相同实体(用户,文档等)之间的相似性应该是1(与距离矩阵相反,它是0)。
但在他们的例子中,他们为同一个实体分配了0分:
0,0 0
1,1 0
这里我有点困惑。任何从事光谱聚类的人都可以帮我解决..
P.S。:我有自己的计算相似度得分的方法,所以我不想在构建的mahout函数中使用任何。
提前致谢..
答案 0 :(得分:0)
我认为我们应该将相似性矩阵看作图论中邻接矩阵的扩展:如果两个节点相邻则为1,如果不相邻,则为0。在您的情况下,所有节点都是相邻的,您通过相似性矩阵来思考这个邻接矩阵,以编码“两个观察有多少是相邻的?”的信息。
由于我们不认为节点与自身相邻,除非它与自身有连接,否则邻接矩阵的对角线设置为0.