使用CRF模型标记项目时处理缺失或未知的功能(CRFSuite)

时间:2015-05-20 10:44:56

标签: python missing-data crf missing-features

我使用CRFSuite(python-crfsuite实现)来构建命名实体提取器,类似于http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb上的教程 训练输入是一系列单词,每个单词都有许多功能。

问题在于,对于我的特定用例,我并不总是具有我试图识别的实体的功能。我希望CRF模型根据周围单词的特征识别实体。但是,当我只是输入一个空字典{}作为单词的特征时,命名实体永远不会被正确分类。

我想知道是否有功能或标准方法来处理这种情况,在训练模型后,并不总是有所有项目的功能。

1 个答案:

答案 0 :(得分:0)

在某些情况下,为缺少的功能(如“ - ”或“+”)分配固定值可能很有用。