在CoreNLP代码中,Penn Treebank的词性符号本身实际表示了什么?

时间:2017-03-25 21:16:04

标签: java nlp stanford-nlp pos-tagger

我专门研究一些数据结构,枚举或生成过程,通过这些过程可以在内部表示不同的词性。我花了很长时间扫描Javadoc和源代码已经有一段时间了,无法找到我正在寻找的东西。如果可能的话,我想直接访问标签的集合,如果它们存储在某个中心位置。如果我提出的问题构成了关于CoreNLP pos-tagging运作方式的天真假设,请原谅我,但如果我所描述的内容确实以某种形式存在,那将非常有帮助。谢谢!

1 个答案:

答案 0 :(得分:1)

我实际上并不确定它们是在代码中的任何地方明确表示的。标记器只是将它们输出为字符串而不是任何类型的固定枚举,输出空间直接从训练数据中推断出来。这样做的好处是,您可以在任意标签集上训练完全相同的模型。当然还有你遇到的缺点。 :)

但是,对于英语,标签集应该是Penn Treebank标记集:https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html