命名实体识别:用于新/最新实体

时间:2014-10-08 16:49:25

标签: python nlp nltk named-entity-recognition

很抱歉这个奇怪的“问题标题”,但我想不出合适的标题。

我是NLP概念的新手,所以我使用了NER演示(http://cogcomp.cs.illinois.edu/demo/ner/results.php)。现在的问题是“如何以及以何种方式”我可以使用NER完成的这些标记。我的意思是这些答案或推论可以从这些已被标记在某些组中的命名实体中获取 - 位置,人员,组织等。如果我有一个包含全新公司,地点等名称的数据,那我该如何去为这样的数据做这些NER标记?

请不要低估或阻止我,我只需要指导/专家建议。阅读一个概念是另一回事,同时能够知道哪里和一个概念。什么时候申请它是另一回事,这是我要求指导的地方。非常感谢!!!

演示中的摘录: -

狗已经在货物区域使用了一段时间,但最近刚刚被引入 LOC Newark LOC JFK 机场的乘客区。 LOC JFK 有一只狗, LOC Newark 有一只 极少数, PER Farbstei n说。

2 个答案:

答案 0 :(得分:3)

通常NER是管道中的一个步骤。例如,一旦标记了所有实体,如果您有许多句子,例如[PER John Smith], CEO of [ORG IBM] said...,那么您可以设置公司和CEO的表格。这是knowledge base population的一种形式。

但是,还有很多其他用途,具体取决于您已拥有的数据类型以及您要完成的任务。

答案 1 :(得分:2)

我认为你的问题分为两部分:

NER的目的是什么?

这是一个很大的问题,通常它用于信息检索(IR)任务,如索引,文档分类,知识库人口(KBP),还有很多很多其他(语音识别,翻译)......很难找出一份广泛的清单......

我们如何扩展NER以识别新的/未知的实体?

E.g。我们如何识别NER系统从未见过的实体。一目了然,两种解决方案可能会起作用:

  • 假设您有一些定期更新的链接数据库:系统可能依赖于通用类别。例如,让我们说" Marina Silva"出现在新闻中,现在被添加到与类别" POLITICIAN"相关联的词典中。由于系统知道每个POLITICIAN都应该被标记为一个人,即不依赖于词汇项而是依赖于类别,因此将标记" Marina Silva"作为PERS命名实体。您不必重新训练整个系统,只是为了更新其词典。
  • 使用形态学和上下文线索,系统可能猜测从未见过的新命名实体(并且不在词典中)。例如,像#34;总统候选人XXX YYY" (或" Marina YYY")会猜测" XXX YYY" (或只是" YYY")是PERS(或PERS的一部分)。大多数情况下,这涉及概率建模。

希望这会有所帮助:)