我有一句话:
5th-6th Grade Teacher, Mount Pilot Elementary School
RegExner映射文件内容:
Pilot TITLE
注释者:
tokenize,ssplit,pos,lemma,depparse,ner,regexner
这样的配置一切正常,我得到的短语" Mount Pilot Elementary School"标记为ORGANIZATION,在corenlp日志中我有一条消息:
Not annotating 'Pilot': ORGANIZATION with [TITLE], sentence is '5th-6th Grade Teacher , Mount Pilot Elementary School'
所以这是好的和预期的行为。
但是,一旦我将以下行添加到映射文件中:
Labor ORGANIZATION
CoreNLP为相同的健全状态返回此类标记:
Mount/ORGANIZATION
Pilot/TITLE
Elementary School/ORGANIZATION
"先导"组织被#34; Pilot" TITLE来自映射文件。
有没有办法避免这种行为?我只想标记" Labor"作为一个组织,我不想强迫CoreNLP覆盖RegexNER的NER标签。在我看来,它有点意外,但也许这是一个功能而不是一个错误
答案 0 :(得分:0)
您的规则必须采用以下格式:
Pilot TITLE MISC 1
然后它不会覆盖其他标签类型。