Stanford Corenlp:Regexner意外地覆盖了NER实体

时间:2017-08-21 22:01:47

标签: stanford-nlp

我有一句话:

5th-6th Grade Teacher, Mount Pilot Elementary School

RegExner映射文件内容:

Pilot TITLE

注释者:

tokenize,ssplit,pos,lemma,depparse,ner,regexner

这样的配置一切正常,我得到的短语" Mount Pilot Elementary School"标记为ORGANIZATION,在corenlp日志中我有一条消息:

Not annotating 'Pilot': ORGANIZATION with [TITLE], sentence is '5th-6th Grade Teacher , Mount Pilot Elementary School'

所以这是好的和预期的行为。

但是,一旦我将以下行添加到映射文件中:

Labor ORGANIZATION

CoreNLP为相同的健全状态返回此类标记:

Mount/ORGANIZATION Pilot/TITLE Elementary School/ORGANIZATION

"先导"组织被#34; Pilot" TITLE来自映射文件。

有没有办法避免这种行为?我只想标记" Labor"作为一个组织,我不想强​​迫CoreNLP覆盖RegexNER的NER标签。在我看来,它有点意外,但也许这是一个功能而不是一个错误

1 个答案:

答案 0 :(得分:0)

您的规则必须采用以下格式:

Pilot   TITLE   MISC    1

然后它不会覆盖其他标签类型。