tf-idf的余弦相似替代(三角不等式)

时间:2017-04-10 07:21:00

标签: nlp cluster-analysis information-retrieval tf-idf cosine-similarity

我正在尝试使用tf-idf来聚类类似的文档。我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起。

问题在于余弦相似性不满足三角不等式。因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能导致两个文档组合在一起,即使它们彼此不相似。

是否有另一种衡量两个文件相似性的方法,以便:

  • 根据他们的方向,无论幅度如何,矢量得分都非常相似
  • 满足三角不等式:如果A类似于B而B类似于C则A也类似于C

2 个答案:

答案 0 :(得分:1)

不确定它是否可以帮到你。请参阅本文中的TS-SS方法。它涵盖了余弦和ED的一些缺点,它有助于以更高的准确度识别矢量之间的相似性。更高的准确性有助于您了解哪些文档高度相似并且可以组合在一起。该文件说明了为什么TS-SS可以帮助你。

enter image description here

答案 1 :(得分:0)

Cosine对欧几里德的归一化数据进行了平方。

因此,简单地将您的向量标准化为单位长度,并使用欧几里得。