CESS_ESP标签的定义

时间:2014-08-12 05:37:41

标签: python nlp nltk pos-tagger

我正在使用NLTK CESS ESP数据包,我已经能够使用adatpation spaghetti taggerHiddenMarkovModelTagger对句子进行pos标记,它产生的标记与标记en_US句子时使用的标记完全不同,这里是{{3}的链接对于NLTK的文档,你会发现使用的标签是大写的,没有任何数字或标点符号,一些cess标签:vsip3s0da0fs0

有人知道解释这些标签的参考吗?

  

¿Que eslaprogramaciónorientaa objetos?

Spaghetti Tagger

[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
[('\xc2\xbfQue', None), ('es', None), ('la', None), ('programaci\xc3\xb3n', None), ('orientada', None), ('a', None), ('objetos', None), ('?', None)]
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]
[('\xc2\xbfQue', None), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', None), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]

Markov Tagger

[('\xc2\xbfQue', 'sn.e-SUJ'), ('es', 'vsip3s0'), ('la', 'da0fs0'), ('programaci\xc3\xb3n', 'ncfs000'), ('orientada', 'aq0fsp'), ('a', 'sps00'), ('objetos', 'ncmp000'), ('?', 'Fit')]

1 个答案:

答案 0 :(得分:4)

使用名为 EAGLE 的旧注释系统标记cess-esp语料库,您可以看到它here。希望这会有所帮助。