我使用了StanfordCoreNLP的NER来识别实体,包括组织,位置和人。但是存在一些奇怪的东西。 例如,我输入了一个像"克利夫兰骑士"它将承认克利夫兰'克利夫兰'作为' location'但不是克利夫兰骑士'作为组织。 我不是很熟悉,我也不知道NER是如何工作的。我的任务是在文本中获取所有公司名称,我得到的结果不是很令人满意。因此,有两种方法可以解决问题。第一种是修改dict并插入正确的数据。第二是训练模型。但仍有一些问题。
此外,https://nlp.stanford.edu/software/crf-faq.shtml#a上的常见问题列表提出了培训ner模型的方法,但最让我困惑的是如果我训练模型,我会得到什么。
如果我创建一个包含类似
的数据集"组织'克利夫兰 骑士'"
训练模型,模型会发生什么? CRFC分类器内的字典会改变吗?
当我输入“克利夫兰骑士队”时,CRFClassifier会修改错误吗?并认可克利夫兰骑士队'作为一个组织实体?
这些都是我的谜题,我正在准备数据集以尝试第二种方式。有人可以回答上面的4个问题吗? 感谢
答案 0 :(得分:0)
我认为第一个解决方案并不是非常技术性的,每次要标记新公司时,都需要更新字典。 我更喜欢你的第二个解决方案,我之前做过这个,并训练了一个新模型来标记我的句子。 如果你有一个足够大的语料库,它标记得很好,可能需要一些时间训练,但值得努力。