pw, w, c
和
pc, nc, c
问题:
使用第一个特征函数,我们想要像pw ='in'w ='Berlin'c ='LOCATION'那样可能会得到很高的权重,而改变c ='PERSON'会得到一个低/负重量。问题是,如何选择 w 和 pw ?他们是手工挑选的,是从训练集中标记词的附近,还是从所有可能的词集中取出的? 是否考虑了每个组合pw,
当在训练阶段使用第二特征函数时,前向后向算法中的矩阵变为N ^ 3,其中N是类的数量。或者我错过了什么?
提前谢谢你:)!
答案 0 :(得分:4)
斯坦福大学NER使用CRF序列模型。 1. pw和w是在训练期间看到的所有先前和当前单词对。 2.在解码过程中,如果我们有特征模板pc,nc,c,那么为了找到最佳序列,就必须考虑N ^ 3种可能的类组合(对于每个令牌和周围的令牌)。默认模型使用pc,c并考虑N ^ 2个组合。