Question

我使用Stanford POS Tagger标记西班牙语文本（通过Python中的NLTK）。

这是我的代码：

import nltk
from nltk.tag.stanford import POSTagger
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar')
spanish_postagger.tag('esta es una oracion de prueba'.split())

结果是：

[(u'esta', u'pd000000'),
(u'es', u'vsip000'),
(u'una', u'di0000'),
(u'oracion', u'nc0s000'),
(u'de', u'sp000'),
(u'prueba', u'nc0s000')]

我想知道在哪里可以找到pd000000，vsip000，di0000，nc0s000，sp000的确切含义？

Answer 1

这是 AnCora treebank 中使用的标记集的简化版本。您可以在此处找到他们的标记集文档：https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

“简化”包括将许多最终字段归零，这些字段不严格属于词性标记。例如，我们的词性标注器将始终为原始标记集的NER字段提供null（0）值（请参阅EAGLES noun documentation）。

简而言之：我们的标记器生成的POS标签中的字段与AnCora POS字段完全对应，但很多字段将为空。对于大多数实际用途，您只需要查看标记的前2-4个字符。第一个字符始终表示广泛的POS类别，第二个字符表示某种子类型。

我们正在编写一些介绍性文档，以便使用西班牙语和CoreNLP（这意味着要理解这些标记，以及其他许多内容）。目前，您可以在technical documentation的第一页找到更多信息。

Stanford Spanish POS Tagger标签的含义

1 个答案: