标签: similarity
我知道您可以使用Jaccard index \ distance来测量两组的相似度/距离。但是,我正在寻找一些方法来扩展原始Jaccard值相对于集合的长度。例如,我想要两个具有显着重叠的大集合的相似性高于两个小集合。
当然,我可以简单地将Jaccard距离的值除以两组的并集大小,但是为此目的是否有标准的缩放方案?