我想识别特定领域(例如棒球)中的命名实体。我知道有像StanfordNER,LingPipe,AlchemyAPI这样的工具,我已经对它们进行了一些测试。但我想要的是具体的字段,如前所述。这怎么可能?
答案 0 :(得分:3)
一种方法可能是
使用常规(非特定域名)工具来检测人名
使用主题分类器过滤掉不在域中的文字
如果数据集的总大小足够且提取器和分类器的准确性足够好,您可以使用结果获取与域密切相关的人名列表有问题的(例如,通过将结果限制在域特定文本中比在其他文本中更频繁地提及)。
在棒球的情况下,这应该是获得与棒球相关的人员列表的一种相当好的方式。但是,这不是获得棒球球员名单的好方法。对于后者,有必要分析提到姓名的确切背景和所说的事情;但也许这不是必需的。
修改 主题分类器我的意思与其他人可能仅仅称为分类,文档分类< / em>,域名分类或类似。即用型工具的示例包括Python-NLTK中的分类器(请参阅here示例)和LingPipe中的分类器(请参阅here)。
答案 1 :(得分:0)
看一下涵盖250多个类别的smile-ner.appspot.com。特别是,它涵盖了许多体育运动的人/团队/俱乐部。可能对您有用。