如何使用CoreNLP的RegexNER覆盖命名实体的标记,而不指定原始标记

时间:2017-03-30 21:49:08

标签: stanford-nlp

我知道CoreNLP的RegexNER允许我使用映射文件覆盖标记。例如;我有一个CoreR,CoreNLP认为它是一个组织。如果我在映射文件中有以下行,它仍然将其标记为ORGANIZATION。

  

EGFR基因

如果我将该行更改为如下所示:

  

EGFR基因组织

然后CoreNLP将其标记为GENE。

为了能够做到这一点,我必须知道CoreNLP将EGFR标记为ORGANIZATION并且我不能总是知道我的映射文件中的每个单词。现在我的问题是,有没有办法告诉RegexNER覆盖EGFR的标签,无论原始标签是什么?像

这样的东西
  

EGFR基因。*

1 个答案:

答案 0 :(得分:1)

您可以提供可以覆盖的以逗号分隔的标记列表。

例如:

ORGANIZATION,PERSON,LOCATION,MISC

将允许它覆盖所有这些标签。

我认为目前没有覆盖所有选项,因此您必须列出要覆盖的每种类型。

如果您总是希望使用规则中的内容覆盖所有内容,则可以使用此选项将其提供给TokensRegexNERAnnotator

regexner.backgroundSymbol ORGANIZATION,PERSON,LOCATION,MISC,O

然后每个规则都不必有一个列表。