Rand和Jaccard相似性/验证指数之间的理论差异是什么?
我对方程式并不感兴趣,而是对它们之间差异的解释。
我知道Jaccard指数忽略了真正的负面因素,但为什么呢?这有什么样的影响?
由于
答案 0 :(得分:2)
我在计算生物学硕士论文中使用过这些,所以希望我能以一种有助于你的方式回答这个问题 -
较短的版本 -
J = TP /(TP + FP + FN),而R =(TP + TN)/(TP + TN + FP + FN)
当然,按照定义,Jaccard忽略了TN。对于非常大的数据集,TN的数量可能非常大,我的论文就是这种情况。因此,该术语推动了所有分析。当我从兰特指数转向Jaccard指数时,我忽略了TN的贡献,并且能够更好地理解事物。
版本较长 -
兰德和Jaccard指数更常用于比较通常的反应特征统计数据(如感觉/特异性等)来比较分区/聚类。但在某种意义上,它们可以扩展到真正的正面或真正的负面观念。让我们更详细地讨论一下 -对于一组元素S = {a1,a2 .... an},我们可以定义两个不同的聚类算法X和Y,它们将它们分成r个簇 - X1,X2 ...... Xr簇和Y1, Y2 .... Yr集群。组合所有X群集或所有Y群集,您将再次获得完整的S集。
现在,我们定义: - A = S中与X中相同集合和Y中相同集合中的元素对数 B = S中的元素对的数量,它们在X中的不同集合中以及在Y中的不同集合中 C = S中元素对的数量,它们在X中的相同集合中以及在Y中的不同集合中 D = S中元素的对数,它们在X中的不同集合中以及在Y
中的相同集合中兰德指数定义为 - R =(A + B)/(A + B + C + D) 现在以这种方式看待事物 - 让X成为诊断测试的结果,而Y是数据点上的实际标签。因此,A,B,C,D然后减少到TP,TN,FP,FN(按此顺序)。基本上,R减少到我上面给出的定义。
现在,Jaccard Index -
对于两组M,N Jaccard索引忽略聚类算法X和Y的不同组中的元素,即它忽略B,这是真阴性。
J =(A)/(A + C + D),减少到J =(TP)/(TP + FP + FN)。
这就是两个统计数据根本不同的方式。如果你想了解更多关于这些的信息,这里有一篇非常好的论文,以及一个可能对你有用的网站 -
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.6189&rep=rep1&type=pdf
http://clusteval.sdu.dk/313/clustering_quality_measures/542
希望这有帮助!