我正在尝试使用tf-idf来聚类类似的文档。我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起。
问题在于余弦相似性不满足三角不等式。因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能导致两个文档组合在一起,即使它们彼此不相似。
是否有另一种衡量两个文件相似性的方法,以便:
答案 0 :(得分:1)
不确定它是否可以帮到你。请参阅本文中的TS-SS方法。它涵盖了余弦和ED的一些缺点,它有助于以更高的准确度识别矢量之间的相似性。更高的准确性有助于您了解哪些文档高度相似并且可以组合在一起。该文件说明了为什么TS-SS可以帮助你。
答案 1 :(得分:0)
Cosine对欧几里德的归一化数据进行了平方。
因此,简单地将您的向量标准化为单位长度,并使用欧几里得。