我一直在使用Stanford NER标记器来查找文档中的命名实体。我面临的问题描述如下: -
让句子为The film is directed by Ryan Fleck-Anna Boden pair.
现在,NER标记器将Ryan标记为一个实体,将Fleck-Anna标记为另一个实体,将Boden标记为第三个实体。正确的标记应该是Ryan Fleck作为一个,而Anna Boden作为另一个。
这是NER标记器的问题吗?如果是,那么它可以处理吗?
答案 0 :(得分:1)
怎么样
这是一种手动增强技术。但是你的NER可能不会用这种方式学到太多东西。
在这种情况下,看起来有一个新功能,连字符名称,NER需要了解。为什么不组成一堆带连字符的名字,把它们放在一些文本中,然后标记它们并训练你的NER?
您应该通过添加更多功能,更多数据和培训来实现目标。
答案 1 :(得分:0)
您可以尝试Apache opeNLP,而不是使用stanford-coreNLP。可根据您的训练数据训练您的模型。由于此模型取决于您提供的名称,因此可以检测您感兴趣的名称。