重点命名实体识别(NER)?

时间:2012-04-06 12:09:29

标签: nlp machine-learning named-entity-recognition

我想识别特定领域(例如棒球)中的命名实体。我知道有像StanfordNER,LingPipe,AlchemyAPI这样的工具,我已经对它们进行了一些测试。但我想要的是具体的字段,如前所述。这怎么可能?

2 个答案:

答案 0 :(得分:3)

一种方法可能是

  1. 使用常规(非特定域名)工具来检测人名

  2. 使用主题分类器过滤掉不在域中的文字

  3. 如果数据集的总大小足够且提取器和分类器的准确性足够好,您可以使用结果获取与域密切相关的人名列表有问题的(例如,通过将结果限制在域特定文本中比在其他文本中更频繁地提及)。

    在棒球的情况下,这应该是获得与棒球相关的人员列表的一种相当好的方式。但是,这不是获得棒球球员名单的好方法。对于后者,有必要分析提到姓名的确切背景和所说的事情;但也许这不是必需的。

    修改 主题分类器我的意思与其他人可能仅仅称为分类文档分类< / em>,域名分类或类似。即用型工具的示例包括Python-NLTK中的分类器(请参阅here示例)和LingPipe中的分类器(请参阅here)。

答案 1 :(得分:0)

看一下涵盖250多个类别的smile-ner.appspot.com。特别是,它涵盖了许多体育运动的人/团队/俱乐部。可能对您有用。