应用错误收集

我正在尝试使用斯坦福的命名实体识别器模块（https://nlp.stanford.edu/software/CRF-NER.html）为不同的域训练NER模型，并且标签集非常不同。我的数据集的大小是：用于训练的大约1100个句子和用于测试的大约150个句子。我面临的问题是我的测试准确性非常低：20-40％。

我尝试使用NERFeatureFactory中提供的不同功能，但是这些功能实际上都没有帮助。这可能是什么实际问题？仅仅是因为培训数据有限还是我还缺少其他东西吗？

我想尝试的另一件事是对经过训练的模型进行一些微调和验证。有办法吗？

如何为小型训练数据集提高斯坦福大学CRF的NER准确性？

0 个答案: