为什么Penn Treebank POS标签集有单独的标签'to'?

时间:2013-09-29 15:05:36

标签: nlp pos-tagger

Penn Treebank tagset有一个单独的标记TO,用于'到',无论它是否用于介词意义(例如{{1} }或不定式意义(如I went to school)。从整体NLP的角度来看,这有什么用途?只需将无限期标记为'单独使用直观,但我没有看到在单个标签中组合不定式和介词的逻辑。

谢谢,如果这不符合堆栈溢出指南,请道歉。

1 个答案:

答案 0 :(得分:2)

不同的语料库提供不同级别的粒度。例如,将此与British National Corpus, which includes three different tags进行比较。

我认为这可能是作为语料库标记实践的属性而不是来自这种特定的NLP性能目的。它不是不可能想象它是POS Guidelines for the Penn Treebank Project的设计决定。 (联系this paper的作者进一步澄清。)

为了使POS标签为单词“to”设置单独的标签,有时需要将“to”标记为介词,有时标记为“to” “不定式标记”的不同标记。为此,人类标记者必须消除“to”两个角色之间的歧义。一些tricky cases(需要语法判断)可能需要一些额外的人工时间来消除歧义,考虑到标记的语料库的大小,这也可能导致一些错误。如果估计信息增益(从消除歧义的粒度)估计不那么大,或者如果估计潜在的标记错误,那么这种权衡可能在效率和正确性方面犯得更多。太多了。