Chunker应该找到一个短语的头部吗?

时间:2011-08-03 17:17:42

标签: nlp opennlp

我的申请要求我指出一个短语(noum或动词)的头部。我的葡萄牙语语料库中有这种信息:

Me pron-pers * B-NP
pergunto v-fin B-VP
semper adv * B-ADVP
quem pron-indp * B-NP
podia v-fin B-VP
ter v-inf I-VP
sido v-pcp I-VP
aquele pron-det B-NP
jovem adj I-NP
alemãon* I-NP
。 。 O

语法类似于CONLL 2000,但*标记了短语的头部。 我的问题是:Chunker应该支持吗?你是否知道任何其他语料库来训练一个也包含头部的Chunker,或者这是我的特殊性?

- 编辑 -

我尝试训练分类器并取得了不错的成绩:F1得分为0.94,无头标,0.93。我觉得没关系。问题是OpenNLP chunker API不支持此标记,并且在创建跨度时会感到困惑。我更改了OpenNLP代码来处理它,我想知道它是否是一个很好的补丁,但由于它不常见,我不应该发送补丁。

1 个答案:

答案 0 :(得分:2)