标记为“单词”的词性

时间:2017-01-24 22:20:50

标签: stanford-nlp

我在一些西班牙文字上使用Stanford Part of Speech tagger。根据他们的文档,词性标记来自此集:http://nlp.stanford.edu/software/spanish-faq.shtml#tagset

总的来说,我发现这是准确的并且没有问题。但是,我只是碰到了一小段文字:“Adiós~hailey”。这标记如下:Adiós_i ~_word hailey_aq0000。因此~符号(我认为应该得到f0的标点符号标记为word。这没有记录或预期。这是一个错误还是预期的?

更新

事实证明,特殊的“单词”标签也出现在其他环境中。我刚看到它的单词it和单词á

1 个答案:

答案 0 :(得分:1)

感谢您抓住这个!我赶上文档已经有点慢了......我刚刚更新了the tag list in our documentation以包含新的word

在CoreNLP 3.7.0版本中,我们包括了对额外数据进行培训的新西班牙语模型(特别是DEFT西班牙语树库V2)。一些新数据来自讨论论坛数据集(拉丁美洲西班牙语讨论论坛树库)。此数据集使用额外的POS标记word来标记表情符号和其他符号(例如®符号)。

(我知道,这是一种愚蠢的名字选择 - 但我们希望坚持使用原始语料库。)