我使用Stanford POS Tagger标记西班牙语文本(通过Python中的NLTK)。
这是我的代码:
import nltk
from nltk.tag.stanford import POSTagger
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar')
spanish_postagger.tag('esta es una oracion de prueba'.split())
结果是:
[(u'esta', u'pd000000'),
(u'es', u'vsip000'),
(u'una', u'di0000'),
(u'oracion', u'nc0s000'),
(u'de', u'sp000'),
(u'prueba', u'nc0s000')]
我想知道在哪里可以找到pd000000,vsip000,di0000,nc0s000,sp000的确切含义?
答案 0 :(得分:10)
这是 AnCora treebank 中使用的标记集的简化版本。您可以在此处找到他们的标记集文档:https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html
“简化”包括将许多最终字段归零,这些字段不严格属于词性标记。例如,我们的词性标注器将始终为原始标记集的NER字段提供null(0
)值(请参阅EAGLES noun documentation)。
简而言之:我们的标记器生成的POS标签中的字段与AnCora POS字段完全对应,但很多字段将为空。对于大多数实际用途,您只需要查看标记的前2-4个字符。第一个字符始终表示广泛的POS类别,第二个字符表示某种子类型。
我们正在编写一些介绍性文档,以便使用西班牙语和CoreNLP(这意味着要理解这些标记,以及其他许多内容)。目前,您可以在technical documentation的第一页找到更多信息。