opennlp chunker和postag结果

时间:2013-02-25 04:01:17

标签: opennlp

Java - opennlp

我是opennlp的新手,我尝试分析这个句子,并且有post标签和chunk结果,但我无法理解值的含义。是否有任何表可以解释post标签和chunk结果值的完整形式含义?

Tokens: [My, name, is, Chris, corrale, and, I, live, in, Philadelphia, USA, .]
Post Tags: [PRP$, NN, VBZ, NNP, NN, CC, PRP, VBP, IN, NNP, NNP, .]
chunk Result: [B-NP, I-NP, B-VP, B-NP, I-NP, O, B-NP, B-VP, B-PP, B-NP, I-NP, O]

3 个答案:

答案 0 :(得分:14)

POS标签来自Penn Treebank tagset。这些块是名词短语(NP),动词短语(VP)和介词(PP)。 "乙 - .."标志着这样一句话的开头,"我 - .."意思是"内部",即这句话在这里继续(见OpenNLP docs)。

答案 1 :(得分:10)

S - >简单的声明性条款,即一个不由a引入的条款 (可能是空的)从属      连词或wh-word,不显示主语 - 动词 反转。

SBAR - >条款由(可能是空的)从属连接引入。

SBARQ - >由wh-word或wh-phrase引入的直接问题。          间接问题和相关条款应该放在括号中 SBAR,而非SBARQ。

SINV - >倒置的陈述句,即主题中的一个 遵循紧张的动词或模态。

SQ - >以下是反转是/否问题,或wh问题的主要条款 SBARQ中的wh-phrase。

ADJP - >形容词短语。

ADVP - >副词短语。

CONJP - >连词短语。

FRAG - >片段。

INTJ - >欹。大致对应于词性标签 UH。

LST - >列表标记。包括周围的标点符号。

NAC - >不是成分;用于显示某些prenominal的范围 NP中的修饰语。

NP - >名词短语。

NX - >在某些复杂的NP中用于标记NP的头部。 非常粗略地对应于N-bar

PP - >介词短语。

PRN - >括号。

PRT - >粒子。应标记为RP的单词的类别。

QP - >量词短语(即复杂量词/量词组);用于内 NP。

RRC - >减少相关条款。

UCP - >与Coordinated Phrase不同。

VP - >动词短语。

WHADJP - > Wh-adjective短语。包含wh-adverb的形容词短语,如 在多么热。

WHAVP - > Wh-adverb短语。介绍一个NP差距的条款。可能为空 (包含0补全)          或词汇,包含wh-副词,如何或为何。

WHNP - > Wh-noun Phrase。介绍一个NP差距的条款。可能为空 (包含0补全)         或词汇,包含一些wh-word,例如谁,哪本书,谁的 女儿,没有,或如何         很多豹子。

WHPP - > Wh介词短语。包含wh名词的介词短语 短语         (例如,哪个或由谁的权威)要么介绍一个 PP间隙或由WHNP包含。

X - >未知,不确定或无法控制。 X通常用于包围 错别字和包围       所述...的-构造。

信用:http://mail-archives.apache.org/mod_mbox/opennlp-users/201402.mbox/%3CCACQuOSXOeyw2O-AZtW3m=iABo1=3cpZOdPiWFXoNwN-SVWo4gQ@mail.gmail.com%3E

答案 2 :(得分:2)

请参阅POSTag list以获取代码详情。

大块标签,如" B-NP "由两部分或三部分组成:
第一部分

B - marks the beginning of a chunk
I - marks the continuation of a chunk
E - marks the end of a chunk

作为一个块,它可能只有一个字长(例如" She"在上面的例子中),它可以同时是一个块的开头和结尾。

第二部分

NP - noun chunk
VP - verb chunk

有关详细参考,请参阅OpenNLP Documentation