如何在斯坦福NER中生成和使用这些功能

时间:2015-03-24 13:36:52

标签: nlp stanford-nlp

NERFeatureFactory

中的两个功能为例
pw, w, c

pc, nc, c

问题:

  1. 使用第一个特征函数,我们想要像pw ='in'w ='Berlin'c ='LOCATION'那样可能会得到很高的权重,而改变c ='PERSON'会得到一个低/负重量。问题是,如何选择 w pw ?他们是手工挑选的,是从训练集中标记词的附近,还是从所有可能的词集中取出的? 是否考虑了每个组合pw,

  2. 当在训练阶段使用第二特征函数时,前向后向算法中的矩阵变为N ^ 3,其中N是类的数量。或者我错过了什么?

  3. 提前谢谢你:)!

1 个答案:

答案 0 :(得分:4)

斯坦福大学NER使用CRF序列模型。 1. pw和w是在训练期间看到的所有先前和当前单词对。 2.在解码过程中,如果我们有特征模板pc,nc,c,那么为了找到最佳序列,就必须考虑N ^ 3种可能的类组合(对于每个令牌和周围的令牌)。默认模型使用pc,c并考虑N ^ 2个组合。