我知道CoreNLP的RegexNER允许我使用映射文件覆盖标记。例如;我有一个CoreR,CoreNLP认为它是一个组织。如果我在映射文件中有以下行,它仍然将其标记为ORGANIZATION。
EGFR基因
如果我将该行更改为如下所示:
EGFR基因组织
然后CoreNLP将其标记为GENE。
为了能够做到这一点,我必须知道CoreNLP将EGFR标记为ORGANIZATION并且我不能总是知道我的映射文件中的每个单词。现在我的问题是,有没有办法告诉RegexNER覆盖EGFR的标签,无论原始标签是什么?像
这样的东西EGFR基因。*
答案 0 :(得分:1)
您可以提供可以覆盖的以逗号分隔的标记列表。
例如:
ORGANIZATION,PERSON,LOCATION,MISC
将允许它覆盖所有这些标签。
我认为目前没有覆盖所有选项,因此您必须列出要覆盖的每种类型。
如果您总是希望使用规则中的内容覆盖所有内容,则可以使用此选项将其提供给TokensRegexNERAnnotator
regexner.backgroundSymbol ORGANIZATION,PERSON,LOCATION,MISC,O
然后每个规则都不必有一个列表。