如何为小型训练数据集提高斯坦福大学CRF的NER准确性?

时间:2019-08-22 14:26:49

标签: stanford-nlp

我正在尝试使用斯坦福的命名实体识别器模块(https://nlp.stanford.edu/software/CRF-NER.html)为不同的域训练NER模型,并且标签集非常不同。我的数据集的大小是:用于训练的大约1100个句子和用于测试的大约150个句子。我面临的问题是我的测试准确性非常低:20-40%。

我尝试使用NERFeatureFactory中提供的不同功能,但是这些功能实际上都没有帮助。这可能是什么实际问题?仅仅是因为培训数据有限还是我还缺少其他东西吗?

我想尝试的另一件事是对经过训练的模型进行一些微调和验证。有办法吗?

0 个答案:

没有答案