计算两个对象列表之间的相似性

时间:2018-03-01 07:16:59

标签: algorithm similarity information-retrieval cosine-similarity

我想计算两个不同长度的列表之间的相似性。特别是,相似性必须考虑到不同的条件:

-Given 2列表A和B,如果A = B则相似性(A,B)= 1

- 通常,如果B包含A,则相似性(A,B) - > 1。但是,相似性度量还应考虑两个列表中元素的数量。 (例如,如果A包含1000个对象而B只包含一个,它也包含在A中,则相似性(A,B) - > 0)。

- 相似度(A,B)也定义阈值T.相似度大于T的值表示两个列表相似。

余弦相似度可能与此问题有关,但我不知道如何使用子集和阈值。

我也发现了不同的方法,但是阈值参数是snot指定的:

- A Similarity Measure for Indefinite Rankings

- Kendall rank correlation coefficient

2 个答案:

答案 0 :(得分:2)

我认为你正在寻找某种相似性。

两个最突出的衡量标准是Jaccard IndexSørensen–Dice coefficient

答案 1 :(得分:1)

在您的情况下,使用 Jaccard similarity coefficient 可能会有所帮助。