POS标记中的精确召回计算

时间:2016-10-10 14:39:03

标签: machine-learning statistics nlp stanford-nlp opennlp

我试图在POS标签中找到精确度和召回率。

案例-1 在这种情况下说黄金数据是

Secretariat[NNP] is[VBZ] expected[VBN] to[TO] race[VB] tomorrow[NR]

,测试数据

Secretariat[NNP] is[VBZ] expected[VBN] to[TO] race[NN] tomorrow[NR] 

在这里,

5 is TruePsotive, 
1 FalsePositive [NN], 
1 FalseNegative [VB]  
Precision = TP/(TP+FP)=5/6 
Recall = TP/(TP+FN)=5/6

案例-2 在这种情况下,我们总共有700个令牌,一些令牌被标记器标记为“UNK”标记,这在Golden数据和训练数据中都不存在。

在训练数据中,没有给出一些标记,因此测试人员将这些未知标记作为“UNK”,然后提供输出标记文件。

在输出中我们观察到了,

500 tokens tagged by the tagger correctly, (True Positive)
200 tokens tagged incorrectly (False Positive)
100 tokens tagged as UNK (False negative)

所以在这种情况下,

Precision = 500/700 = 0.714285714 
Recall = 500/600 = 0.833333333

这两种情况的计算是否正确?请告诉我。

0 个答案:

没有答案