CoreNLP语音标记器和名称实体识别标记器开箱即用,但我希望进一步提高准确性,以便整个程序运行得更好。要详细说明准确性 - 有些情况下POS / NER被错误标记。例如:
而不是VB *或类似的东西,因为它是一个类似动词的短语(我不是一个语言学家,所以请带着一点点盐)。
那么提高准确度的最佳方法是什么?
答案 0 :(得分:2)
首先," Oversaw汽车制造"甚至不是一个句子,并且它本身没有多大意义:-)这些模型通常在整个句子上训练。如果你进入"他监督汽车制造"这里[1],正在使用CoreNLP,然后你得到一个更健全的结果。
我们假设您仍然有不准确的结果。除非您使用的是一些小型示例模型,否则不会有更好的"模特本身。它总是取决于域,甚至是"默认"在某些领域训练模型,例如报纸。
您很可能需要自己训练模型,而不是使用例外规则,而是针对特定的文本域,例如:文本谈论汽车或制造业,或具有某种写作风格等。