Java - opennlp
我是opennlp的新手,我尝试分析这个句子,并且有post标签和chunk结果,但我无法理解值的含义。是否有任何表可以解释post标签和chunk结果值的完整形式含义?
Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .]
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .]
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O]
答案 0 :(得分:14)
POS标签来自Penn Treebank tagset。这些块是名词短语(NP),动词短语(VP)和介词(PP)。 "乙 - .."标志着这样一句话的开头,"我 - .."意思是"内部",即这句话在这里继续(见OpenNLP docs)。
答案 1 :(得分:10)
S - >简单的声明性条款,即一个不由a引入的条款 (可能是空的)从属 连词或wh-word,不显示主语 - 动词 反转。
SBAR - >条款由(可能是空的)从属连接引入。
SBARQ - >由wh-word或wh-phrase引入的直接问题。 间接问题和相关条款应该放在括号中 SBAR,而非SBARQ。
SINV - >倒置的陈述句,即主题中的一个 遵循紧张的动词或模态。
SQ - >以下是反转是/否问题,或wh问题的主要条款 SBARQ中的wh-phrase。
ADJP - >形容词短语。
ADVP - >副词短语。
CONJP - >连词短语。
FRAG - >片段。
INTJ - >欹。大致对应于词性标签 UH。
LST - >列表标记。包括周围的标点符号。
NAC - >不是成分;用于显示某些prenominal的范围 NP中的修饰语。
NP - >名词短语。
NX - >在某些复杂的NP中用于标记NP的头部。 非常粗略地对应于N-bar
PP - >介词短语。
PRN - >括号。
PRT - >粒子。应标记为RP的单词的类别。
QP - >量词短语(即复杂量词/量词组);用于内 NP。
RRC - >减少相关条款。
UCP - >与Coordinated Phrase不同。
VP - >动词短语。
WHADJP - > Wh-adjective短语。包含wh-adverb的形容词短语,如 在多么热。
WHAVP - > Wh-adverb短语。介绍一个NP差距的条款。可能为空 (包含0补全) 或词汇,包含wh-副词,如何或为何。
WHNP - > Wh-noun Phrase。介绍一个NP差距的条款。可能为空 (包含0补全) 或词汇,包含一些wh-word,例如谁,哪本书,谁的 女儿,没有,或如何 很多豹子。
WHPP - > Wh介词短语。包含wh名词的介词短语 短语 (例如,哪个或由谁的权威)要么介绍一个 PP间隙或由WHNP包含。
X - >未知,不确定或无法控制。 X通常用于包围 错别字和包围 所述...的-构造。
答案 2 :(得分:2)
请参阅POSTag list以获取代码详情。
大块标签,如" B-NP "由两部分或三部分组成:
第一部分:
B - marks the beginning of a chunk
I - marks the continuation of a chunk
E - marks the end of a chunk
作为一个块,它可能只有一个字长(例如" She"在上面的例子中),它可以同时是一个块的开头和结尾。
第二部分:
NP - noun chunk
VP - verb chunk
有关详细参考,请参阅OpenNLP Documentation。