如何提高StanfordCoreNLP的ner的准确性?

时间:2017-05-20 06:46:20

标签: stanford-nlp

我使用了StanfordCoreNLP的NER来识别实体,包括组织,位置和人。但是存在一些奇怪的东西。 例如,我输入了一个像"克利夫兰骑士"它将承认克利夫兰'克利夫兰'作为' location'但不是克利夫兰骑士'作为组织。 我不是很熟悉,我也不知道NER是如何工作的。我的任务是在文本中获取所有公司名称,我得到的结果不是很令人满意。因此,有两种方法可以解决问题。第一种是修改dict并插入正确的数据。第二是训练模型。但仍有一些问题。

  1. 第一种方式是否有效?
  2. 如果问题1的答案是肯定的,如何修改字典?
  3. 此外,https://nlp.stanford.edu/software/crf-faq.shtml#a上的常见问题列表提出了培训ner模型的方法,但最让我困惑的是如果我训练模型,我会得到什么。

    1. 如果我创建一个包含类似

      的数据集

      "组织'克利夫兰     骑士'"

      训练模型,模型会发生什么? CRFC分类器内的字典会改变吗?

    2. 当我输入“克利夫兰骑士队”时,CRFClassifier会修改错误吗?并认可克利夫兰骑士队'作为一个组织实体?

    3. 这些都是我的谜题,我正在准备数据集以尝试第二种方式。有人可以回答上面的4个问题吗? 感谢

1 个答案:

答案 0 :(得分:0)

我认为第一个解决方案并不是非常技术性的,每次要标记新公司时,都需要更新字典。 我更喜欢你的第二个解决方案,我之前做过这个,并训练了一个新模型来标记我的句子。 如果你有一个足够大的语料库,它标记得很好,可能需要一些时间训练,但值得努力。