考虑以下文本,该文本已使用人工(PER),地点(LOC)和组织(ORG)的IO样式注释进行手动注释。
Chicago / LOC Mayor / O Rahm / PER Emanuel / PER,a / O前/ O White / ORG House / ORG aide / O to / O US / LOC Presidents / O Barack / PER Obama / PER和/ O. Bill / PER Clinton / PER,on / O Friday / O加入/ O / O Ready / O For / O. 希拉里/ PER组/ O / O是/ O催促/ O前/ O美国/ LOC秘书/ O. of / O State / O Hillary / PER Clinton / PER to / O run / O for / O president / O in / O. 2016 / O。
考虑以下特征分配f(FEATURES,LABEL),它表示在观察FEATURE时分配LABEL,其中w是当前标记,w-1是前一个标记。
f1(isCapitalized(w), PER)
f2(label(w-1) = PER, PER)
f3(isCapitalized(w), LOC)
f4(lemma(w-1) = "president" OR "mayor", PER)
基于观察到的数据,计算上述每个特征的精确度和召回率,假设每个特征都是单独使用以分配标签,并且每个特征都以未标记的文本开头。
在这种情况下,我应该如何计算精度/召回率? 例如,我应该考虑Rahm Emanuel作为一个真正的正面特征吗?或者每个令牌都是真正的正面特征?或者每个令牌都是误报,因为Rahm Emanuel实际上是一个真正的正面特征?