斯坦福NER小写实体

时间:2017-03-13 09:47:19

标签: nlp stanford-nlp named-entity-recognition

我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写字训练模型,那么准确性是合理的;但是,当模型使用完全大写的标记或甚至是小写和大写的混合进行训练时,结果非常糟糕。我尝试了斯坦福NLP小组Class NERFeatureFactory提出的一些功能以及各种句子,但我无法得到我预期的结果。 我面临的问题的一个例子如下:

“阿里在密歇根大学学习,现在他为我们海军工作。”

我希望模型识别实体如下:

  • “university”:“FACILITY”,
  • “of michigan”:“FACILITY”,
  • “ali”:“PERSON”
  • “我们”:“组织”
  • “海军”:“组织”

如果用作训练数据的.TSV文件只包含小写字母,那么我可以得到上述结果,否则结果会令人惊讶。

任何帮助都是高度赞赏的。

1 个答案:

答案 0 :(得分:2)

如果你有小写文本或混合大小写文本,由于Stanford NLP模型是在标准编辑数据上训练的,因此准确性会受到影响,但有几种有用的方法可以解决这个问题:

  1. 一种方法是使用true case annotator正确地对文本进行大写,然后使用常规NER模型处理生成的文本。
  2. 另一种方法是探索无壳模型,包括斯坦福NER的一部分。
  3. 您可以阅读更多here