改进CoreNLP POS标记器和NER标记器?

时间:2014-09-11 21:04:33

标签: java nlp

CoreNLP语音标记器和名称实体识别标记器开箱即用,但我希望进一步提高准确性,以便整个程序运行得更好。要详细说明准确性 - 有些情况下POS / NER被错误标记。例如:

  • “Oversaw car manufacturing”被标记为NNP-NN-NN

而不是VB *或类似的东西,因为它是一个类似动词的短语(我不是一个语言学家,所以请带着一点点盐)。

那么提高准确度的最佳方法是什么?

  • 对于可以合并到CoreNLP中的POS / NER,还有更好的模型吗?
  • 我应该切换到其他NLP工具吗?
  • 或创建具有例外规则的培训模型?

1 个答案:

答案 0 :(得分:2)

首先," Oversaw汽车制造"甚至不是一个句子,并且它本身没有多大意义:-)这些模型通常在整个句子上训练。如果你进入"他监督汽车制造"这里[1],正在使用CoreNLP,然后你得到一个更健全的结果。

我们假设您仍然有不准确的结果。除非您使用的是一些小型示例模型,否则不会有更好的"模特本身。它总是取决于域,甚至是"默认"在某些领域训练模型,例如报纸。

您很可能需要自己训练模型,而不是使用例外规则,而是针对特定的文本域,例如:文本谈论汽车或制造业,或具有某种写作风格等。

[1] http://nlp.stanford.edu:8080/corenlp/process