应用错误收集

我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写字训练模型，那么准确性是合理的;但是，当模型使用完全大写的标记或甚至是小写和大写的混合进行训练时，结果非常糟糕。我尝试了斯坦福NLP小组Class NERFeatureFactory提出的一些功能以及各种句子，但我无法得到我预期的结果。我面临的问题的一个例子如下：

“阿里在密歇根大学学习，现在他为我们海军工作。”

我希望模型识别实体如下：

“university”：“FACILITY”，
“of michigan”：“FACILITY”，
“ali”：“PERSON”
“我们”：“组织”
“海军”：“组织”

如果用作训练数据的.TSV文件只包含小写字母，那么我可以得到上述结果，否则结果会令人惊讶。

任何帮助都是高度赞赏的。

斯坦福NER小写实体

1 个答案: