命名实体识别中的实体分段

时间:2014-11-13 18:42:05

标签: stanford-nlp named-entity-recognition

我一直在使用Stanford NER标记器来查找文档中的命名实体。我面临的问题描述如下: -

让句子为The film is directed by Ryan Fleck-Anna Boden pair.

现在,NER标记器将Ryan标记为一个实体,将Fleck-Anna标记为另一个实体,将Boden标记为第三个实体。正确的标记应该是Ryan Fleck作为一个,而Anna Boden作为另一个。

这是NER标记器的问题吗?如果是,那么它可以处理吗?

2 个答案:

答案 0 :(得分:1)

怎么样

  • 获取您的数据并通过Stanford NER或其他NER运行。
  • 查看结果并找出所有错误
  • 正确标记错误的结果并将其反馈给您的NER。
  • 泡沫,冲洗,重复......

这是一种手动增强技术。但是你的NER可能不会用这种方式学到太多东西。

在这种情况下,看起来有一个新功能,连字符名称,NER需要了解。为什么不组成一堆带连字符的名字,把它们放在一些文本中,然后标记它们并训练你的NER?

您应该通过添加更多功能,更多数据和培训来实现目标。

答案 1 :(得分:0)

您可以尝试Apache opeNLP,而不是使用stanford-coreNLP。可根据您的训练数据训练您的模型。由于此模型取决于您提供的名称,因此可以检测您感兴趣的名称。