如何获得粗粒度的部分语音标签?

时间:2014-07-28 07:38:05

标签: parsing nlp classification feature-extraction part-of-speech

我有一个由Collins解析器注释的数据集。现在,我将数据集中每个单词的POS保留为一个功能。问题是我不需要细粒度的POS。所以,我已经结合了一些标签。例如,我假设所有VBD,VBP,VBZ,VBG属于“Verb”类别。对于名词,我认为NNP和NNS是“名词”类别。

所以,这是我做完所有组合后的POS标签列表:

  

VB,NN,TO,JJ,IN,EX,RB,WP,PRP,MD,UH,WRB,WDT,RP,CD,POS,DT,PRP $,WP $,CC,RBR

现在,我的问题是我在哪里可以找到粗粒度POS标签列表?是否有任何标准的粗粒度POS标签列表?

在我的系统中,如果我没有结合其他POS标签,我可以获得更好的结果。我想知道我是否可以保留目前的名单?或者我也应该将它们结合起来?

提前致谢,

1 个答案:

答案 0 :(得分:2)

您可以使用Petrov的通用标签集。通用标签组的数量为12,大大提高了POS标签的效率。您可以参考Universal POS tagset您还可以在POS mapping

下载少数标记器的代码和映射