我想计算两个不同长度的列表之间的相似性。特别是,相似性必须考虑到不同的条件:
-Given 2列表A和B,如果A = B则相似性(A,B)= 1
- 通常,如果B包含A,则相似性(A,B) - > 1。但是,相似性度量还应考虑两个列表中元素的数量。 (例如,如果A包含1000个对象而B只包含一个,它也包含在A中,则相似性(A,B) - > 0)。
- 相似度(A,B)也定义阈值T.相似度大于T的值表示两个列表相似。
余弦相似度可能与此问题有关,但我不知道如何使用子集和阈值。
我也发现了不同的方法,但是阈值参数是snot指定的:
答案 0 :(得分:2)
我认为你正在寻找某种相似性。
两个最突出的衡量标准是Jaccard Index和Sørensen–Dice coefficient
答案 1 :(得分:1)
在您的情况下,使用 Jaccard similarity coefficient 可能会有所帮助。