R RecordLinkage包,了解alpha和beta错误

时间:2016-07-13 19:34:17

标签: r duplicates linkage data-linking

我最近一直在学习使用R RecordLinkage软件包。在一个非常小的例子中,链接2个数据集,一个有8行,另一个有11,我得到结果:

Linkage Data Set

8 records in data set 1 
11 records in data set 2 
8 record pairs 

4 matches
4 non-matches
0 pairs with unknown status


Weight distribution:

[0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,0.9]   (0.9,1] 
        2         0         2         0         1         3 

3 links detected 
0 possible links detected 
5 non-links detected 

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000


Classification table:

           classification
true status N P L
      FALSE 4 0 0
      TRUE  1 0 3

无法理解的是alpha错误,beta错误和Classification表之间的准确性之间的关系。以下数字来自何处,如何计算:

alpha error: 0.250000
beta error: 0.000000
accuracy: 0.875000

任何帮助非常感谢

1 个答案:

答案 0 :(得分:3)

Alpha和beta误差是统计测量,通常分别称为I型和II型误差。在统计学术语中,α误差是拒绝零假设的概率,只要它是真的; beta误差是断言零假设的概率,因为它不是真的(比较,例如http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2996198/)。

在记录链接的情况下,空缺点是记录对是匹配的,即两个记录代表相同的实体。因此,alpha误差是将一对标记为不匹配的概率,因为它实际上是匹配(假阴性)。此错误计算如下:(分类为“非链接”的匹配数)/(匹配数)。[1]在上面的例子中,有4个匹配,其中1个未被识别,因此,alpha错误是1/4 = 0.25。

同样,beta误差是将一对分类为匹配的概率,因为它实际上是不匹配(误报)。计算方式为(分类为“链接”的非匹配数)/(不匹配数)。在上面的例子中,没有误报分类,因此beta误差为0.让我们假设一个不同的分类表:

           classification
true status N P L
      FALSE 2 0 2
      TRUE  1 0 3

在这种情况下,有4个不匹配,其中2个被错误地归类为链接,因此beta误差为2/4 = 0.5。

最后,准确性只是所有对中正确分类的比例(见https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers#Single_metrics)。在问题的分类表中,有7个正确的分类(4个不匹配,3个匹配),因此准确度为7/8 = 0,875。

[1]当我指的是分类算法的结果与真实状态相比时,我使用'(非)链接'而不是'(非)匹配'。