命名实体识别(NER)功能

时间:2017-02-02 12:08:09

标签: machine-learning nlp classification feature-selection named-entity-recognition

我是命名实体识别的新手,我在理解此任务的功能/用途方面遇到了一些麻烦。

到目前为止我读过的一些论文提到了所使用的功能,但并没有真正解释它们,例如 Introduction to the CoNLL-2003 Shared Task:Language-Independent Named Entity Recognition,提到了以下功能:

  

参与该活动的十六个系统使用的主要功能   CoNLL-2003共享任务按英语测试数据的性能排序。   Aff:附加信息(n-gram);包:一袋字; cas:全球案例   信息; chu:chunk标签; doc:全球文件信息; GAZ:   方志; lex:词汇特征; ort:正交信息;拍:   正交图案(如Aa0); pos:词性标签;前:   以前预测的NE标签;现状:签署该单词的标志   引用之间;三:触发词。

但是,我对其中的一些感到有些困惑。例如:

  • 是不是应该是一种生成功能的方法(每个单词一个)? BOW本身如何一个功能?或者这只是意味着除了提到的所有其他功能外,我们还有BOW中每个单词的功能?
  • 地名词典怎么能成为一个特色?
  • 如何将POS标签完全用作功能?我们的每个单词都没有POS标签吗?不是每个对象/实例都是"文本"?
  • 什么是全局文档信息?
  • 功能触发词是什么?

我认为我在这里需要的只是查看一个示例表,其中每个功能都作为列,并查看它们的值以了解它们是如何工作的,但到目前为止我还没有找到一个容易的读数据集。

有人可以澄清或指出我使用这些功能的一些解释或示例吗?

3 个答案:

答案 0 :(得分:1)

这里有一些答案(顺便说一下,所有这些东西的术语超载)。

isn't bag of words supposed to be a method to generate features (one for each word)? How can BOW itself be a feature? Or does this simply mean we have a feature for each word as in BOW, besides all the other features mentioned?
how can a gazetteer be a feature?

根据我的经验,BOW特征提取用于从句子中生成单词特征。所以IMO BOW不是一个特征,它是一种从句子(或你正在使用的文本块)生成特征的方法。 Uning NGrams可以帮助解释序列,但是BOW特征相当于无序的字符串。

how can POS tags exactly be used as features ? Don't we have a POS tag for each word? 

POS标签用作功能,因为它们可以帮助消除词义消歧" (至少在理论层面上)。例如,单词" May"可以是一个人的名字,一年中的一个月或一个资本不足的共轭动词,但POS标签可以是区分这一事实的特征。是的,你可以为每个单词获得一个POS标签,但除非你明确在你的"特征空间中使用那些标签。然后这些词本身就不知道它们的POS是什么。

Isn't each object/instance a "text"?

如果你的意思是我认为你的意思,那么如果你已经提取了对象实例"对"那么这只是 。并将它们存储为要素(从一串令牌中派生出来的数组)。

what is global document information?

我认为这个意思是这样的:大多数NLP任务在句子上起作用。全局文档信息是整个文档中所有周围文本的数据。例如,如果您尝试提取地理位置名称但消除歧义,并且您找到了巴黎这个词,那是哪一个?好吧,如果法国被提到上述5句话,这可能会增加它成为巴黎法国而不是巴黎德克萨斯或最坏情况的可能性,帕丽斯·希尔顿。它在所谓的"共享解析"中也非常重要,这就是当你将一个名字与一个代名词引用相关联时(将一个名字提到一个"他"或&# 34;她"等等。

what is the feature trigger words?

触发词是具有高可靠性的特定标记或序列,作为具有特定含义的独立事物。例如,在情绪分析中,带有感叹号的诅咒词通常表示消极性。可以有很多这样的排列。

无论如何,我在这里的答案并不完美,并且容易出现人类认识论和主体间性的各种问题,但这些是我多年来一直在思考这个问题的方式。一直试图解决NLP的问题。

希望其他人会参与进来,特别是如果我离开的话。

答案 1 :(得分:1)

您应该记住,NER将每个单词/标记与内部或外部线索的功能分开。内部线索考虑到单词本身(形态为大写字母,是专用词典中存在的令牌,POS),外部线索依赖于上下文信息(上一个和下一个单词,文档特征)。

  

不应该是生成特征的方法(一个   每个单词)? BOW本身如何成为一种功能?或者这很简单   意思是我们在BOW中有每个单词的特征,除了所有其他单词   提到的功能?

是的,BOW为每个单词生成一个特征,有时候特征选择方法可以减少考虑的特征数量(例如,单词的最小频率)

  

地名词典如何成为一个特征?

地名词典也可以为每个单词生成一个特征,但在大多数情况下,它通过标记单词或多词表达(作为完整的专有名称)来丰富数据。这是一个模棱两可的步骤:“乔治·华盛顿”将带来两个特征:整个“乔治·华盛顿”作为名人,“华盛顿”作为一个城市。

  

POS标签如何完全用作功能?我们没有POS标签   对于每个单词?每个对象/实例不是“文本”吗?

对于分类器,每个实例都是一个单词。这就是使用序列标记(例如CRF)方法的原因:它们允许利用先前的单词和下一个单词作为附加的上下文特征来对当前单词进行分类。标记文本是作为依赖于序列中每个单词最可能的NE类型的过程完成的。

  

什么是全球文件信息?

这可以是元数据(例如日期,作者),主题(全文分类),共同参考等。

  

功能触发词是什么?

触发器是外部线索,有助于消除歧义的上下文模式。例如,“Mr”将被用作强烈暗示以下令牌将成为一个人的特征。

答案 2 :(得分:1)

我最近在python中实现了一个NER系统,我发现以下功能很有用:

  • 字符级ngrams(使用CountVectorizer
  • 之前的单词功能和标签(即上下文)
  • 标签序列概率的维特比或波束搜索
  • 词性(pos),字长,字数,is_capitalized,is_stopword