应用错误收集

时间：2014-09-11 21:04:33

标签： java nlp

CoreNLP语音标记器和名称实体识别标记器开箱即用，但我希望进一步提高准确性，以便整个程序运行得更好。要详细说明准确性 - 有些情况下POS / NER被错误标记。例如：

而不是VB *或类似的东西，因为它是一个类似动词的短语（我不是一个语言学家，所以请带着一点点盐）。

那么提高准确度的最佳方法是什么？

答案 0 :(得分：2)

首先，＆＃34; Oversaw汽车制造＆＃34;甚至不是一个句子，并且它本身没有多大意义:-)这些模型通常在整个句子上训练。如果你进入＆＃34;他监督汽车制造＆＃34;这里[1]，正在使用CoreNLP，然后你得到一个更健全的结果。

我们假设您仍然有不准确的结果。除非您使用的是一些小型示例模型，否则不会有更好的＆＃34;模特本身。它总是取决于域，甚至是＆＃34;默认＆＃34;在某些领域训练模型，例如报纸。

您很可能需要自己训练模型，而不是使用例外规则，而是针对特定的文本域，例如：文本谈论汽车或制造业，或具有某种写作风格等。